Coursea-吴恩达-machine learning学习笔记（二）【week 1之Linear Regression with One Variable】

最新推荐文章于 2022-03-24 17:17:21 发布

痞靥

最新推荐文章于 2022-03-24 17:17:21 发布

阅读量260

点赞数

分类专栏：机器学习文章标签：线性回归梯度下降

本文链接：https://blog.csdn.net/u012347642/article/details/80014477

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

线性回归算法中特定的符号表示：
$m$ ：表示训练样本的数目；
$x$ ：表示输入的特征；
$y$ ：表示输出变量或目标变量；
$(x,y)$ ：表示一个训练样本；
$(x^{(i)},y^{(i)})$ ：表示第 $i$ 个训练样本；
$h$ ：表示假设函数，表示从 $x$ 到 $y$ 的函数映射；

单变量的线性回归模型： $h_\theta(x)=\theta_0+\theta_1x$ ；
其中， $\theta_0,\theta_1$ 为模型参数；

线性回归算法的目标为选择 $\theta_0,\theta_1$ ，使 $h_\theta(x)$ 最接近样本对应的 $y$ 值，即寻找 $\theta_0\,\theta_1$ ，使

1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 最 小 。

${1\over2m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2最小。$

${1\over2m} \sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$ 表示平均误差，其中， ${1\over2}$ 是为了方便后续梯度下降算法的计算。

引入代价函数的概念：

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta_0,\theta_1)={1\over2m} \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$ 代价函数也称平方误差函数或平方误差代价函数，为了评价

hθ(x) h θ ( x ) $h_\theta(x)$ 的准确性，算法的目的是让

J(θ0,θ1) J ( θ 0 , θ 1 ) $J(\theta_0,\theta_1)$ 尽可能小。

平方误差代价函数是解决回归问题最常用的手段。

算法简化：
令 $\theta_0=0$ ，则 $h_\theta(x)=\theta_1x$ ，模型参数只剩下 $\theta_1$ ，代价函数变为

J (θ 1) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta_1)={1\over2m} \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$ 算法目标变为求

min θ 1 J (θ 1)

$\min_{\theta_1}J(\theta_1)$
带入训练集样本数据，发现

J(θ1) J ( θ 1 ) $J(\theta_1)$ 是一个下凸曲线，找到令

J(θ1) J ( θ 1 ) $J(\theta_1)$ 取值最小的

θ1 θ 1 $\theta_1$ 。

$J(\theta_1,\theta_0)$ 同理，可用轮廓图表示：
$轮廓图中同一个圆圈表示$J(\theta_1,\theta_0)$取值相同$

梯度下降算法：可以使代价函数最小化。
算法定义：
repeat until convergence{

θ j : = θ j - α \partial \partial θ j J (θ 0, θ 1) (f o r j = 0 a n d j = 1)

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)\qquad (for\ j=0\ and\ j=1)$ }
：=为赋值运算符；

α α $\alpha$ 为一个数字，称为学习速率，控制梯度下降步幅。

$\theta_0,\theta_1$ 正确的更新方法：
$temp0:=\theta_0-α\frac{\partial}{\partial \theta_0}J(\theta_0,\theta_1)$
$temp1:=\theta_1-α\frac{\partial}{\partial \theta_1}J(\theta_0,\theta_1)$
$\theta_0:=temp0$
$\theta_1:=temp1$
$\theta_0,\theta_1$ 要同时更新。

通常将 $\theta_0,\theta_1$ 均初始化为0。

注： $\frac{\partial}{\partial x}$ 为偏导数符号， $\frac{\rm d}{{\rm d}x}$ 为导数符号

梯度下降算法中，若 $\alpha$ 的值取得太小，梯度下降过于缓慢；若 $\alpha$ 的值取得太大，可能导致无法收敛，甚至发散。
在梯度下降法中，当我们接近局部最低点时，梯度下降法会自动采取更小幅度，因为当接近局部最低点时， $\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$ 导数值自动变得越来越小。

线性回归算法的梯度下降：
$\begin{array}{cc}\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1) &=&\frac{\partial}{\partial \theta_j}{1\over2m} \sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2 &=&\frac{\partial}{\partial \theta_j}{1\over2m} \sum\limits_{i=1}^m (\theta_0+\theta_1x^{(i)}-y^{(i)})^2\end{array}$
$\begin{array}{cc}j=0时：\frac{\partial}{\partial \theta_0}J(\theta_0,\theta_1)&=&{1\over m} \sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})&=&{1\over m} \sum\limits_{i=1}^m (\theta_0+\theta_1x^{(i)}-y^{(i)})\end{array}$
$\begin{array}{cc}j=1时：\frac{\partial}{\partial \theta_1}J(\theta_0,\theta_1)&=&{1\over m} \sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x^{(i)}&=&{1\over m} \sum\limits_{i=1}^m (\theta_0+\theta_1x^{(i)}-y^{(i)})x^{(i)}\end{array}$
即：
repeat until convergence{

θ 0 : θ 1 : = = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) θ 1 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) θ 0, θ 1 同 时 更 新

$\begin{array}{cc}\theta_0:&=&\theta_0-\alpha{1\over m} \sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})\\ \theta_1:&=&\theta_1-\alpha{1\over m} \sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x^{(i)} \end{array}\qquad \theta_0,\theta_1同时更新$ }

批量梯度下降法(Batch Gradient Descent)：梯度下降法最常用的形式，具体做法是在更新参数时使用所有的样本来进行更新。

痞靥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Coursea-吴恩达-machine learning学习笔记（二）【week 1之Linear Regression with One Variable】

线性回归算法中特定的符号表示： mmm：表示训练样本的数目； xxx：表示输入的特征； yyy：表示输出变量或目标变量； (x,y)(x,y)(x,y)：表示一个训练样本； (x(i),y(i))(x(i),y(i))(x^{(i)},y^{(i)})：表示第iii个训练样本； hhh：表示假设函数，表示从xxx到yyy的函数映射；单变量的线性回归模型：hθ(x)=θ0+θ1xhθ...
复制链接

扫一扫

专栏目录