线性回归

万蕊清

于 2014-04-15 22:15:54 发布

阅读量1k

点赞数 1

文章标签：线性回归 Linear Regression

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gateway6143/article/details/23773501

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

(一) Cost Function

线性回归是给出一系列数据点，求拟合直线 $h_{\theta }(x)=\theta _{0}+\theta _{1}x$ ,

记Cost Function为 $J(\theta _{0},\theta _{1})$ ,如下左图所示：

求出Cost Function最小时 $\theta _{0}$ 和 $\theta _{1}$ 的值， $\theta _{0}$ 和 $\theta _{1}$ 的值求出来了，拟合直线 $h_{\theta }(x)$ 也就知道了。

下右图为简化模式，也即 $\theta _{0}=0$ ，拟合直线为 $h_{\theta }(x)=\theta _{1}x$

举例：有三个数据点，如下左图中×所示，当 $\theta_{1}=1$ 时， $h_{\theta }(x)=x$ ， $J(\theta _{1})=0$ ，如下图所示。

下图为不同 $\theta _{1}$ 情况下的cost function $J(\theta _{1})$ 的值。

从这里也可以看到，当 $\theta_{1}=1$ 时， $J(\theta _{1})$ 达到最小，此时对应的拟合直线 $h_{\theta }(x)=x$ 为最优拟合直线。

以上为假设 $\theta _{0}=0$ 的情况，现在我们回到 $h_{\theta }(x)=\theta _{0}+\theta _{1}x$ 的情况。

当存在两个参数 $\theta _{0}$ 和 $\theta _{1}$ 时，cost function是一个三维函数，如下图所示：

可以看到，在“谷底”时， $J(\theta _{0},\theta _{1})$ 最小，此时对应的 $\theta _{0}$ 和 $\theta _{1}$ 带入 $h_{\theta }(x)=\theta _{0}+\theta _{1}x$ 就是我们要求的拟合直线。

将上图中的cost function在二维上用不同颜色的等高线映射为下右图所示，

在下右图中，给定一个 $(\theta _{0},\theta _{1})$ 时，拟合直线 $h_{\theta }(x)=\theta _{0}+\theta _{1}x$ 也就确定了，

如下图所示，下右图给定 $(\theta _{0},\theta _{1})$ ，下左图就对应一条拟合直线 $h_{\theta }(x)$ 。左图中的×为数据点。

改变 $(\theta _{0},\theta _{1})$ ，往里面移动，可以看到下左图 $h_{\theta }(x)$ 跟着改变。

继续改变 $(\theta _{0},\theta _{1})$ ，移到最内侧（对应三维图像的“谷底”），可以看到，此时 $h_{\theta }(x)$ 和数据点的拟合程度是最好的，

如下图所示。

我们的目的是最小化cost function,即上图中最后一幅图 $\theta _{0}$ =450, $\theta _{1}$ =0.12的情况。

（二） Gradient descent

Gradient descent是指梯度下降，为的是将cost funciton 描绘出之后，让参数 $(\theta _{0},\theta _{1})$ 沿着梯度下降的方向走，并迭代地不断减小J( $\theta _{0}$ ， $\theta _{1}$ )，即稳态。

每次沿着梯度下降的方向：

参数的变换公式：其中标出了梯度（蓝框内）和学习率（）：

其中： $\frac{\partial }{\partial \theta _{j}}J(\theta _{0},\theta _{1})$ 为梯度，α为学习率。

gradient即J在该点的切线斜率slope，tanβ。下图所示分别为slope（gradient）为正和负的情况：

同时更新 $\theta _{0}$ 和 $\theta _{1}$ ，左边为正解：

关于学习率:

α太小：学习很慢； α太大：容易过学习

所以如果陷入局部极小，则slope=0，不会向左右变换

本图表示：无需逐渐减小α，就可以使下降幅度逐渐减小（因为梯度逐渐减小）：

求导后：

由此我们得到：

其中 $x^{(i)}$ 表示输入数据x中的第i组数据.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。