机器学习基础－线性回归之梯度下降

最新推荐文章于 2024-07-25 15:16:40 发布

Hyuuga_Neji

最新推荐文章于 2024-07-25 15:16:40 发布

阅读量378

点赞数

分类专栏：机器学习文章标签：机器学习线性回归梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hyuuga_Neji/article/details/50861891

版权

机器学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

刚刚开始接触机器学习，首先接触到的是线性回归（linear regression），梯度下降是接触到的第一个对于模型的优化。（以下内容来自coursera中斯坦福大学机器学习公开课即相关链接，附上公开课链接：https://www.coursera.org/learn/machine-learning/

首先是假设模型（hypothesis function）：

hθ(x)=θ0+θ1x

很简单的一个线性函数，theta0和theta1是线性模型的两个参数，x是输入，y是输出

其次是该假设模型的代价函数：

J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2

这个函数理解起来也很容易，m是data set的大小，利用data set的数据求了一个均方差（mean square error，也就是大名鼎鼎的MSE）

再接下来是梯度下降：

θj:=θj−α∂∂θjJ(θ0,θ1)

其中alpha是learning rate，也就是学习速率，公式本身没有难度（公式后部为代价函数关于theta－j的导数），但是alpha系数却需要格外的理解，学习速率的设定不能太大，也不能太小，太大会导致震荡（简单来说因为每次更改的幅度都很大，在接近谷底的时候很容易产生越过谷底却无法逼近谷底的现象，曾经考虑过动态更改alpha的值，也就是在远离谷底的地方将alpha值放大，在靠近谷底的地方将alpha值减小，后来发现这是不需要的，因为导数值已经实现了这种放大缩小的功能），太小会导致每次收敛速度过慢。

接下来就是比较难理解的部分，即线性回归的梯度下降公式：

θ0:=θ1:=
θ0−α1m∑i=1m(hθ(x(i))−y(i))θ1−α1m∑i=1m((hθ(x(i))−y(i))x(i))

很显然的是这个公式是由上一步骤得来的，但是后面的导数如何变成了这个公式中看着像是MSE的部分呢？

要解决这个问题，需要回顾一个高数中的问题，即链式法则，（基本概念详见链接）。

∂∂θ0g(θ0,θ1)=∂∂θ012m∑i=1m(f(θ0,θ1)(i))2=2×12m∑i=1mf(θ0,θ1)2−1∂∂θ0θ0= 1m∑i=1mf(θ0,θ1)(i)

theta1中最后需要乘x是因为在公式中将theta视为变量，x在求导过程中相当于常量，需要乘x是因为在求导过程中产生了这个产量，举个例子：

对(3x-4)^2求导使用链式法则为：2*(3x-4)*3，这里的x就相当于最后乘的那个3.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础－线性回归之梯度下降

介绍机器学习入门概念－线性回归的梯度下降模型中的部分难点
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。