为什么贝叶斯优化比网格搜索和随机搜索更高效呢？_贝叶斯优化比随机网格搜索的优点-CSDN博客

为什么贝叶斯优化比网格搜索和随机搜索更高效呢？

在寻找最优超参数值的时候，需要提前确定一些数据。首先，也是最重要的，任何算法都需要一个目标函数，来找它的最大值。或者一个损失函数，来找它的最小值。然后，需要确定搜索范围，一般通过上限和下限来确定。可能还有一些对于算法的参数，比如搜索的步长。

网格搜索可能是应用最广泛的超参数搜索算法了，因为它确实很简单。网格搜索通过查找搜索范围内的所有的点，来确定最优值。它返回目标函数的最大值或损失函数的最小值。给出较大的搜索范围，以及较小的步长，网格搜索是一定可以找到全局最大值或最小值的。但是，网格搜索一个比较大的问题是，它十分消耗计算资源，特别是，需要调优的超参数比较多的时候（例如，随机森林里有8个左右）。因此，当人们实际使用网格搜索来找到最佳超参数集的时候，一般会先使用较广的搜索范围，以及较大的步长，来找到全局最大值或者最小值可能的位置。然后，人们会缩小搜索范围和步长，来达到更精确的最值。尽管这样做可以降低所需的时间，但是由于目标参数一般是非凸的，如图1所示，所以人们常常就会错过了全局的最大值或最小值，因为他们在第一次测试的时候找到了一个局部的最值。

随机搜索的思想和网格搜索比较相似，只是不再测试上界和下界之间的所有值，只是在搜索范围中随机取样本点。它的理论依据是，如果随即样本点集足够大，那么也可以找到全局的最大或最小值，或它们的近似值。通过对搜索范围的随机取样，随机搜索一般会比网格搜索要快一些。但是和网格搜索的快速版（非自动版）相似，结果也是没法保证的。

贝叶斯优化寻找使全局达到最值的参数时，使用了和网格搜索、随机搜索完全不同的方法。网格搜索和随机搜索在测试一个新的点时，会忽略前一个点的信息。而贝叶斯优化充分利用了这个信息。贝叶斯优化的工作方式是通过对目标函数形状的学习，找到使结果向全局最大值提升的参数。它学习目标函数形状的方法是，根据先验分布，假设一个搜集函数。在每一次使用新的采样点来测试目标函数时，它使用这个信息来更新目标函数的先验分布。然后，算法测试由后验分布给出的，全局最值最可能出现的位置的点。

对于贝叶斯优化，一个主要需要注意的地方，是一旦它找到了一个局部最大值或最小值，它会在这个区域不断采样，所以它很容易陷入局部最值。为了减轻这个问题，贝叶斯优化算法会在勘探和开采(exploration and exploitation)中找到一个平衡点。

勘探(exploration)，就是在还未取样的区域获取采样点。开采(exploitation)，就是根据后验分布，在最可能出现全局最值的区域进行采样。

我们用于进行贝叶斯优化的包是一个Python包，叫做“bayes_opt”。下面的视频(http://blog.nycdatascience.com/wp-content/uploads/2016/09/bayes_opt_visualisation.mp4)显示了“bayes_opt”包是如何保证勘探和开采的平衡的。

何时贝叶斯优化无法返回最优值？

贝叶斯优化，尽管比网格搜索和随机搜索要好一些，但是它也不是魔法，所以有些东西还是要好好考虑一下。根据我们的经验，迭代次数（也就是选取采样点的数量），和搜索范围的大小的比值，十分重要。让我们假想一个极端的例子，来说明这一点。想象你要调整两个超参数，每个参数的范围是从1到1000.然后你把迭代指数设置成了2，算法几乎肯定会返回一个错误结果，因为他还没充分学习到目标函数的形状。