Coursera ML笔记 --- week1:单变量的线性回归+梯度下降法

tjl_moby

于 2017-03-09 00:50:32 发布

阅读量380

点赞数

分类专栏： coursera ml笔记 coursera笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tjl_moby/article/details/60902599

版权

coursera笔记同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

coursera ml笔记

13 篇文章 0 订阅

订阅专栏

欢迎点击作者原文地址
week1:单变量的线性回归+梯度下降法
2017/3/7

week1
supervise learing
监督学习分为两类：分类和回归
分类是将输入变量（feature/attribute）映射成为离散的输出结果，回归是将输入变量映射成为连续的输出结果

2017/3/8 cost function

cost fuction 就是squared error function ,如果把y看作是一个变量的话，那就squared error其实就是它的方差（借此理解）。cost function 就是一半的SEF

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (y^- y i) 2 = 1 2 m \sum i = 1 m (h θ (x (i) - y (i)) 2

$J(\theta_0,\theta_1) = \frac{1}{2m}\sum_{i=1}^m(\hat{y}-y_i)^2= \frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})^2$

$hypothesis function$ vs $cost function$

hypothesi function $h_{\theta_1}(x)$ 是 $x$ 的函数， $\theta$ 是固定的
cost function $J(\theta_1)$ 是 $\theta_1$ 的函数

2017/3/9 Gradient Descent
梯度下降法，来寻找使得目标函数最小的参数

m i n θ 0, θ 1 J (θ 0, θ 1)

$min_{\theta_0,\theta_1} J(\theta_0,\theta_1)$
a. 寻找到的是 局部最优解,初始值不同，得到的最小值也可能不同。不过在线性回归中，因为cost function 是一个bowl shape(convex shape)，所以找到的总是全局最优。注意，仅在linear regression!!
b.
repeat {

θ j : = θ j - α \partial J ( θ 0 , θ 1 ) \partial θ j

$\theta_j:= \theta_j-\alpha \frac{\partial J(\theta_0,\theta_1)}{\partial\theta_j}$ }
其中，

α $\alpha$ 是一个learing rate (理解为下降的幅度)
c. 参数一定是同时变化的，simutineously update
temp0 :=

θ0−α∂J(θ0,θ1)∂θ0 $\theta_0-\alpha \frac{\partial J(\theta_0 , \theta_1)}{\partial\theta_0}$
temp1 :=

θ1−α∂J(θ0,θ1)∂θ1 $\theta_1-\alpha \frac{\partial J(\theta_0 , \theta_1)}{\partial\theta_1}$

θ0 $\theta_0$ :=temp0

θ1 $\theta_1$ :=temp1
d. 对于learning rate

α $\alpha$ 来说，有这么几点需要注意：首先，不能取得太大，太大会overshoot，偏离最小值（越小则速度越慢）。其次，

α $\alpha$ 不用变动，取固定值即可。因为越靠近斜率就越小（右边部分），偏导部分

∂J∂α $\frac{\partial{J}}{\partial{\alpha}}$ 是一直在变小的，或者说是不断地向0靠拢。最后，当初始值就在最小值处事，偏导为0，参数经过迭代也不会产生变化。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Coursera ML笔记 --- week1:单变量的线性回归+梯度下降法

2017/3/7week1 supervise learing 监督学习分为两类：分类和回归分类是将输入变量（feature/attribute）映射成为离散的输出结果，回归是将输入变量映射成为连续的输出结果2017/3/8 cost functioncost fuction 就是squared error function ,如果把y看作是一个变量的话，那就squared
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。