最常用的优化算法---梯度下降法

五 最常用的优化算法—梯度下降法

从抽象角度,先好好解释一下优化算法
每一个机器学习模型都有一个目标函数,而学习的目标,就是最小化目标函数
直观而言,当我们已经获得了一个函数,最小化该函数其实就是,在其自变量取值范围内,找到使得因变量最小的那个自变量取值点。
注意的训练模型涉及两个函数,一个是模型函数、一个是目标函数,这里说的是目标函数
是不是所有目标函数都能够在自变量参数取值范围内找到因变量参数的最小值呢?显然不是。

比如,这个多项式函数:y=x,x 属于实数——这样的函数就没有最小值。
因为,x 的取值范围是整个实数域,x 越小 y 也就越小,x 取值可以无限小下去,一直 到负无穷,y 同样可以到负无穷。可惜负无穷并不是一个数值,y 实际上是没有最小值的。

一般使用梯度下降法进行优化的模型的目标函数,或者其他一些经典的机器学习模型的目标函数都是凸函数,函数的凸性保证了其最小值。

什么是凸函数:
定义:某个向量空间的凸子集(区间)上的实值函数,如果在其定义域上的任意两点 ,有 f(tx + (1-t)y) <= tf(x) + (1-t)f(y),则称其为该区间上的凸函数。(凸是使用的外文定义,在国内一般为凹)

已经知道了学习的目标就是最小化目标函数的取值,而目标函数又是凸函数,那么学习的目标自然转化成了寻找某个凸函数的最小值
因为本课都是讲解经典机器学习模型,所以,前人的工作已经保证我们用到的目标函数都是凸函数。如果未来在应用中构建自己的目标函数,那么千万记得在直接应用任何优化算法之前,应该先确定它是凸函数。

在这里插入图片描述

1.随机取一个自变量的值X0
2.对应求出因变量值:f(x0)
3.计算f(x0)出目标函数发f(x)的导数
4.从f(x0)开始,沿着该处目标函数导数的反方向,按一定步长α向前走一步,走到的位置对应于自变量的取值为x1
5.继续重复2-3-4,达到指定迭代次数或近似收敛到最优解,退出迭代。

上面讲了梯度下降法,其中的 α,又叫做步长,它决定了为了找到最小值点而尝试在目标函数上前进的步伐到底走多大。
步长是算法自己学习不出来的,它必须由外界指定。
这种算法不能学习,需要人为设定的参数,就叫做超参数。
在这里插入图片描述
不过大步伐也不是没有优点。步伐越大,每一次前进得越多。步伐太小,虽然不容易“跨过”极值点,但需要的迭代次数也多,相应需要的运算时间也就越多。

为了平衡大小步伐的优缺点,也可以在一开始的时候先大步走,当所到达点斜率逐渐下降——函数梯度下降的趋势越来越缓和——以后,逐步调整,缩小步伐
在这里插入图片描述
梯度下降的难点

那是不是只要步伐合适,就一定能找到最小值点呢?也不一定。

如果目标函数有多个极小值点(多个向下的“弯儿”),那么如果开始位置不妥,很可能导致最终是走到了一个局部极小值就无法前进了。比如下图的 Postion1 和 Position2。

这种情况确实很难克服,是梯度下降算法的一大挑战。
在这里插入图片描述

如果目标函数不能确定只有一个极小值,而获得的模型结果又不令人满意时,就该考虑是否是在学习的过程中,优化算法进入了局部而非全局最小值。

这种情况下,可以尝试几个不同的起始点。甚至尝试一下大步长,说不定反而能够跨出局部最小值点所在的凸域。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值