【算法】Grid Search，Random Search，Bayesian Optimization

最新推荐文章于 2024-05-04 13:21:31 发布

YaoYee_7

最新推荐文章于 2024-05-04 13:21:31 发布

阅读量2.2k

点赞数

分类专栏： AI 文章标签： 1024程序员节

本文链接：https://blog.csdn.net/YaoYee_21/article/details/119618027

版权

AI 专栏收录该内容

26 篇文章 4 订阅

订阅专栏

在这里插入图片描述
目前业界用得比较多的分别是网格搜索，随机搜索，贝叶斯优化

Grid Search

网格搜索，在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。缺点是太费时间了，特别像神经网络，一般尝试不了太多的参数组合。

为什么叫网格搜索？以有两个参数的模型为例，参数a有3种可能，参数b有4种可能，把所有可能性列出来，可以表示成一个3*4的表格，其中每个cell就是一个网格，循环过程就像是在每个网格里遍历、搜索，所以叫grid search

网格搜索很容易理解和实现，例如我们的超参数A有2种选择，超参数B有3种选择，超参数C有5种选择，那么我们所有的超参数组合就有2 * 3 * 5也就是30种，我们需要遍历这30种组合并且找到其中最优的方案，对于连续值我们还需要等间距采样。实际上这30种组合不一定取得全局最优解，而且计算量很大很容易组合爆炸，并不是一种高效的参数调优方法。

Random Search

随机搜索，以随机在参数空间中采样的方式代替了GridSearchCV对于参数的网格搜索，在对于有连续变量的参数时，RandomizedSearchCV会将其当作一个分布进行采样这是网格搜索做不到的，它的搜索能力取决于设定的n_iter参数（数值越大，获得的参数精度越大，但是搜索时间越长）。

业界公认的Random search效果会比Grid search好，Random search其实就是随机搜索，例如前面的场景A有2种选择、B有3种、C有5种、连续值随机采样，那么每次分别在A、B、C中随机取值组合成新的超参数组合来训练。虽然有随机因素，但随机搜索可能出现效果特别差、也可能出现效果特别好，在尝试次数和Grid search相同的情况下一般最值会更大，当然variance也更大但这不影响最终结果。在实现Random search时可以优化，过滤随机可能出现过的超参数组合，不需要重复计算。

Bayesian Optimization

贝叶斯优化，它要求已经存在几个样本点（同样存在冷启动问题，后面介绍解决方案），并且通过高斯过程回归（假设超参数间符合联合高斯分布）计算前面n个点的后验概率分布，得到每一个超参数在每一个取值点的期望均值和方差，其中均值代表这个点最终的期望效果，均值越大表示模型最终指标越大，方差表示这个点的效果不确定性，方差越大表示这个点不确定是否可能取得最大值非常值得去探索。

如果一个点均值较大，而且方差也比较大，很有可能这个点的超参数可以训练得到一个效果指标好的模型。那为什么要选均值大和方差大的点呢？因为前面提到均值代表期望的最终结果，当然是越大越好，但我们不能每次都挑选均值最大的，因为有的点方差很大也有可能存在全局最优解，因此选择均值大的点我们成为exploritation（开发），选择方差大的点我们称为exploration（探索）。

参考资料：https://zhuanlan.zhihu.com/p/29779000