简单分析线性回归中的梯度下降

最新推荐文章于 2023-07-30 20:53:44 发布

mottled233

最新推荐文章于 2023-07-30 20:53:44 发布

阅读量645

点赞数

分类专栏：机器学习文章标签：数据机器学习线性回归梯度下降算法

本文链接：https://blog.csdn.net/mottled233/article/details/69439819

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

对于回归问题，我们的目标是要找到一个模型，或者说hypothesis，使之能够：对于我们一个输入，能够返回我们预期的结果。也就是说，假设在我们的数据集和结论集之间存在一个完美的对应关系f使得所有数据集都能正确得出结果，那我们的模型h应该与f之间的差距尽可能的小。

所以，我们靠瞎猜来蒙到这个h肯定是不现实的。我们这时候就会想，虽然我们一开始的模型不怎么贴合f，那么能不能根据已知数据集，一点一点地修正它（具体表现就是f中有很多参数，一步一步修正这些参数，使得它更贴合f），以此达到目的？

对于线性回归问题。
假设变量是线性相关（即都是一维的）
xi代表特征/输入变量
y代表输出/目标变量
m代表训练样本的数量
n代表特征数
则假设函数

h (X) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . . . + θ n x n

$h(X)=θ_0+θ_1x_1+θ_2x_2+.....+θ_nx_n$
我们定义如下式子（实际上就是很普通的最小二乘）。

J (θ) = \sum i = 0 m (h θ (x (i)) - y (i)) 2

$J(θ)=\sum_{i=0}^m(h_θ(x^{(i)})-y^{(i)})^2$
这里区别一下，

x i 表 示 h (X) 中 的 第 i 个 变 量 ， x (i) 代 表 第 i 个 样 本

$x_i表示h(X)中的第i个变量，x^{(i)}代表第i个样本$
这个式子反映了所有的样本通过h的映射之后与真实结果之间的差距（这里的差距指的是欧氏距离，实际上还有很多不同的反应距离的方法，例如曼哈顿距离和余弦距离balabala，先不讨论），用来判定我们的模型是好还是坏，很明显，这个式子的值越大，说明结果越烂。
要调整θ使此式尽可能的小，即与实际偏差越来越小。

实际上，这个函数叫做loss函数，损失函数或代价函数。因为它反映了模型得出的结果和真实的结果之间的差距。Loss函数应具有这样的特征：①它是凸函数，可以简单理解为边缘任意两点连接，之间的线段一定全在函数围成的形状内。这个性质保证了梯度下降之后可以达到全局最优解。②它处处可导，不然就不论什么梯度下降了。③模型得出的结果与真实结果偏差越大，loss函数值就越大，也就是说：损失越大。

给他取个名字叫J，自变量是θ（粗体代表向量），也就是那些参数。

所谓梯度下降，就是一种找到使j最小的方法。

梯度下降