梯度下降算法

智元说车

于 2016-11-15 13:55:55 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：机器学习算法梯度下降优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012771351/article/details/53170551

版权

机器学习专栏收录该内容

35 篇文章 4 订阅

订阅专栏

注：本文中所有公式和思路来自于邹博先生的《机器学习升级版》，我只是为了加深记忆和理解写的本文。

梯度下降算法我个人认为是极其重要的的一种参数优化手段，因为很常用，也容易理解，不多废话，直接步入主题。

我们在线性回归中，优化参数θ的时候，先是对目标函数求导来计算梯度：

然后我们沿着梯度的方向下降(上升)：

走到这一步似乎问题已经完全解决了，但是学习率α怎么确定呢？是选一个固定呢还是变化的更好呢？

我们直观的想象一下，学习率说白了就是每次梯度下降的大小(并非快慢，快慢是二阶导)，那么在参数优化的最初阶段，最优值与当前值的差距较大，我们其实可以将步长调大一点，在迭代后期，使用较小的步长增加稳定度和精度。

我们不妨先仔细思考一下梯度下降的运行过程：

假设某次迭代 xk = a，沿着梯度方向，移动到xk+1 = b，则有：

现在假设初始从x0为出发点，每次沿着梯度的反方向移动一定距离得到αk，得到序列：

对应个点直接的关系为：

当n达到一定的值后，函数f(x)收敛到局部最小值。

现在我们不妨转换一下视角，记当前点为xk，当前的搜索方向为dk(如：负梯度方向)，因为学习率α是待考察的对象，因此，将下列f(xk + αdk)看作是关于α的函数h(α)：

那么当α等于0的时候易得：

对h(α)求导：

因为梯度下降是寻找f(x)的最小值，那么在xk和dk给定的前提下，就是寻找f(xk + αdk)的最小值：

那么我们可以h(α)的导数为0，找到驻点：

将α等于0代入：

走到这一步不知道你是否会感觉不踏实呢，说实话，我第一次看到这的时候是怎么看怎么觉得不踏实，我们是为了解决一个函数的最值而创造了另一个函数再次求最值，那么就陷入了一个循环了，所以，我们不妨在此步骤打住，进而分析一下，我们首先选择了负梯度方向，那么可得：

从而可以得到：

那么能够找到足够大的α，使得：

既然一个大于0，一个小于0，必定存在某α：

那么这个α*即为我们要找的一个学习率。

既然存在，咋求呢？

线性搜索（Line Search）

这是一种很简单的方式求一个最有学习率的方式：二分线性搜索

具体的做法：

不断将区间[α1，α2]分成两半，选择端点异号的一侧，直到区间足够小或者找到当前最优的学习率。

回溯线性搜索（Backing Line Search）

基于Armijo准测计算收缩方向上的最大步长。

其基本思想是沿着搜索方向移动一个较大的步长估计值，然后以迭代的方式不断缩减步长，直到该步长使得函数值f(xk + αdk)相对于当前函数值f(xk)的减小程度大于预期的期望值(即满足Armijo准则)为止。

那么回溯线性搜索和二分线性搜索有什么区别呢？

二分线性搜索的目标是求得满足h'(α)≈0的最优步长的近似值，而回溯线性搜索放松了对步长的约束，只要求步长能使函数有一个足够大的变化即可。

除此之外，二分线性搜索可以减少下降次数，但是在计算最优步长上花费的代价很大，回溯线性搜索找到一个差不多的步长即可。

从回溯线性搜索中我们还可以得到更多的思考，那就是插值法。

插值法

我们如果采用了回溯线性搜索，那么手里现在已经有的数据为：

(1): xk处的函数值

(2): xk处的导数值

(3): 再加上第一次尝试的步长α0，如果α0满足条件，显然算法就结束了，如果不满足，那么就可以利用α0构造一个二次近似函数：

显然导数为0的最优值为：

所以接着回溯线性搜索的思路，如果这个α1满足Armijo准则，则输出学习率，否则继续迭代。

到此，线性搜索就介绍完了，当然了我们这一整篇文章都在介绍沿着梯度去下降，那有没有别的方向呢？

下文将介绍沿着其他的方向去下降。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度下降算法

注：本文中所有公式和思路来自于邹博先生的《机器学习升级版》，我只是为了加深记忆和理解写的本文。梯度下降算法我个人认为是极其重要的的一种参数优化手段，因为很常用，也容易理解，不多废话，直接步入主题。我们在线性回归中，优化参数θ的时候，先是对目标函数求导来计算梯度：然后我们沿着梯度的方向下降(上升)：走到这一步似乎问题已经完全解决了，但是学习率α怎么确定
复制链接

扫一扫

专栏目录

智元说车 CSDN认证博客专家 CSDN认证企业博客

码龄11年

34: 原创

23万+: 周排名

89万+: 总排名

12万+: 访问

: 等级

1650: 积分

64: 粉丝

67: 获赞

7: 评论

119: 收藏

私信

关注

热门文章

分类专栏

机器学习 35篇
linux 2篇
deep learning 1篇

最新评论

HMM之前向后向算法
weixin_46083434: 你好，非常感谢你的讲解让我可以把前向算法和后向算法结合起来理解，不过还有两个问题不是很明白，1. 单个状态的概率那个公式，分母P(o|lamda) 换成alphat(i)*betat(i)再对所有i（状态）求和，是因为生成观测序列o的总概率是t时刻下每个i（状态）可能的概率之和吗？ 2. 最后那个联合概率转换到最终结果不太明白，请问可以请教一下再具体一点的步骤吗？谢谢
LDA-隐狄利克雷分布-主题模型
leilei9406: 想请问下如果做短文拼接可以有哪些方法，我正在做一个短文本的LDA结果不是很好，可以请教下您吗？
变分算法
qq_36711371: 请问一下，P（x）和q（x）的距离公式中，α=1的时候，公式为什么会退化为KL(p||q)，α=1时，分母为0.
HMM之前向后向算法
Chester_ieee: 前后向概率的公式，i和t好像是写反了。
聚类之层次聚类与密度聚类
落入凡间的奥特曼: 你好，请问这个机器学习升级版是课程吗?

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。