Peter教你谈情说AI | 04梯度下降法

最新推荐文章于 2024-11-06 01:38:58 发布

cft56200_ln

最新推荐文章于 2024-11-06 01:38:58 发布

阅读量185

点赞数

原创： Peter盼人人都是极客 2018-10-16

上一节我们知道了算法是训练出来的，训练过程需要依据某种算法进行运算，这一节我们一起看下线性回归中最常用的优化算法——梯度下降法。

凸函数

在前面，我们讲到，每一个机器学习模型都有一个目标函数，而学习的目标，就是最小化目标函数。是不是所有函数都能够在自变量取值范围内找到因变量最小值呢？显然不是。不过我们要学习的几个经典机器学习模型的目标函数都有最小值，也就是我们常说的凸函数。

数学定义：某个向量空间的凸子集（区间）上的实值函数，如果在其定义域上的任意两点，有 f(tx + (1-t)y) <= tf(x) + (1-t)f(y)，则称其为该区间上的凸函数。

将这一定义用一元函数的形式，在二维坐标轴里表现出来，是这样的：

直观的理解，就是二维空间中的一条曲线，有个“弯儿”冲下，那个弯儿里面的最低点，就是该函数在自变量取值区间内的最小值。

如果自变量取值区间是整个实数域的话，那么可以想想这条曲线所有向下的弯儿里面有一个低到最低的，叫全局最小，而其他的弯儿，就叫做局部最小。

如果自变量本身是二维的（二元函数），则凸函数在三维空间中的图象是这样的：

同样有个“弯儿”，只不过这个弯儿不再是一段曲线，而是成了一个碗状的曲面，“碗底儿”就是区域内的极值点。在三维空间中，我们要找的最小值就是最深的那个碗底儿（如果不止一个的话）。

什么是梯度下降法

既然已经知道了学习的目标就是最小化目标函数的取值，而目标函数又是凸函数，那么学习的目标自然转化成了寻找某个凸函数的最小值。

求凸函数的最小值最常用的一种方法，就是梯度下降法。

我们先以一元函数为例，采用如下步骤来获得其最小值：

随机取一个自变量的值 x 0 ；
对应该自变量算出对应点的因变量值：f( x 0 )；
计算 f( x 0 ) 处目标函数 f(x) 的导数；
从 f( x 0 ) 开始，沿着该处目标函数导数的方向，按一个指定的步长 α ，向前“走一步”，走到的位置对应自变量取值为 x 1 。换言之，| x 0 – x 1 | / α = f(x) 在 f （ x 0 ）处的斜率；
继续重复2-4，直至退出迭代（达到指定迭代次数，或 f(x) 近似收敛到最优解）。

直观的看起来，就像上图演示的那样，在 J(w) 曲线上任取一点，放上一个没有体积的“小球”，然后让这个小球沿着该处曲线的切线方向“跨步”，每一步的步长就是 α ，一直跨到最低点位置。

对应三维的情况，可以想像在一个很大的碗的内壁上放上一个小球，每次，我们都沿着当时所在点的切线方向（此处的切线方向是一个二维向量）向前走一步，直到走到碗底为止。

梯度下降的超参数

上面讲了梯度下降法，其中的 α ，又叫做步长，它决定了为了找到最小值点而尝试在目标函数上前进的步伐到底走多大。

步长是算法自己学习不出来的，它必须由外界指定。

这种算法不能学习，需要人为设定的参数，就叫做超参数。

步长参数 α 是梯度下降算法中非常重要的超参数。这个参数设置的大小如果不合适，很可能导致最终无法找到最小值点。

比如下左图就是因为步幅太大，几个迭代后反而取值越来越大。改成右侧那样的小步伐就可以顺利找到最低点了。

不过大步伐也不是没有优点。步伐越大，每一次前进得越多。步伐太小，虽然不容易“跨过”极值点，但需要的迭代次数也多，相应需要的运算时间也就越多。

为了平衡大小步伐的优缺点，也可以在一开始的时候先大步走，当所到达点斜率逐渐下降——函数梯度下降的趋势越来越缓和——以后，逐步调整，缩小步伐。比如下图这样：

梯度下降的注意点

那是不是只要步伐合适，就一定能找到最小值点呢？也不一定。

如果目标函数有多个极小值点（多个向下的“弯儿”），那么如果开始位置不妥，很可能导致最终是走到了一个局部极小值就无法前进了。比如下图的 Postion1 和 Position2。

如果目标函数不能确定只有一个极小值，而获得的模型结果又不令人满意时，就该考虑是否是在学习的过程中，优化算法进入了局部而非全局最小值。这种情况下，可以尝试几个不同的起始点。甚至尝试一下大步长，说不定反而能够跨出局部最小值点所在的凸域。

【推荐阅读】

Peter教你谈情说AI | 01导读

Peter教你谈情说AI | 02什么是机器学习

Peter教你谈情说AI | 03机器学习三要素

轻轻一扫欢迎关注~

如果觉得好，请

转发

转发

转发

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

cft56200_ln CSDN认证博客专家 CSDN认证企业博客

码龄15年

256: 原创

3万+: 周排名

2万+: 总排名

82万+: 访问

: 等级

8182: 积分

282: 粉丝

231: 获赞

55: 评论

1456: 收藏

私信

关注

热门文章

分类专栏

最新评论

二、STM32CubeMX简介、下载及安装
flame_zhang1: 您好我下完最新版之后安装之后管理员权限打开但是在界面上下载软件包还是说没有权限怎么解决
小甲鱼C++ 30 错误处理和调试技巧1 鬼扯内容
Kanslate: junk article
openwrt 端口映射
qq1293766819: 作者大大有没有试过形同范围，不同段的端口转发。
OpenWRT 获取在线设备信息的方法
傍晚六点: mtk平台，用iwpriv ra0 show stainfo 指令查看，回车没有反应。要执行dmesg才查看系统信息才可以，但这样信息太杂乱，不好分析怎么办？
openwrt 做二级路由同网段无线桥接教程 relayd
weixin_43882817: 为什么我按照此方法设置完成后，使用手机、电脑等终端设备连接到中继器的网络后，网络带宽变得特别低甚至无法上网呢？在中继器内测试与上级主路由的连接是OK的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。