斯坦福机器学习课学习笔记（一）-梯度下降

最新推荐文章于 2021-02-06 22:16:05 发布

詹酱

最新推荐文章于 2021-02-06 22:16:05 发布

阅读量307

点赞数

分类专栏：机器学习文章标签：线性回归梯度下降正规方程

本文链接：https://blog.csdn.net/hello_zhangronghui/article/details/54176394

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本讲内容：

线性回归
梯度下降
正规方程组

线性回归

首先看一组关于房价的数据，该数据集只有一个特征。

living areas(feet2)	price($1000s)
2104	400
1416	232
1534	315
852	178
1940	240
..	..

下面介绍几个符号概念：

= 训练样本数量

= 输入变量/特征

= 输入变量/目标值

= 训练样本

$%uFF08x^{i},y^{i}%uFF09$

= 第

个训练样本

监督学习的一般流程：

在该数据集上，假设

$H(x)=\Theta _{0}+\Theta _{1}x$

为了使问题更有趣，引入房间数的特征，则

为房屋面积，

为房间数，那么有

living areas(feet2)	#bed rooms	price($1000s)
2104	3	400
1416	2	232
1534	2	315
852	1	178
1940	3	240
..	..	..

$h(X)=\Theta _{0}+\Theta _{1}x_{1}+\Theta _{2}x_{2}$

为简便起见，令

，则有

n为特征数，

为参数集。

然后，令

，

目标是

。

首先，我们将

从某个值开始（比如说零向量），然后不断更新

以减小

。

梯度下降算法

更新

的算法称之为梯度下降算法，其思想如下：

$\frac{\partial }{\partial \Theta _{i}}J(\Theta )=\frac{\partial }{\partial \Theta _{i}}\frac{1}{2}(h_{\Theta }(x)-y)^{2} =2\cdot \frac{1}{2}(h_{\Theta }(x)-y)\cdot \frac{\partial }{\partial \Theta _{i}}(h_{\Theta }(x)-y)$

$=2\cdot \frac{1}{2}(h_{\Theta }(x)-y)\cdot \frac{\partial }{\partial \Theta _{i}}(h_{\Theta }(x)-y)$

$=(h_{\Theta }(x)-y)\cdot \frac{\partial }{\partial \Theta _{i}}(\Theta _{0}x_{0}+ ... +\Theta _{i}x_{i}+...+ \Theta _{n}x_{n}-y)$

$=(h_{\Theta }(x)-y)\cdot x_{i}$

因此，按

的方式更新

，直到收敛。

以以上推导为基础，分别有批处理梯度下降和随机梯度下降算法两种方法。

批处理梯度下降算法：

----------------------------------------------------

随机梯度下降算法：

$repeat$

{

for j =1 to m

{

(for all i)

}

批处理和随机梯度下降算法的比较：

批处理梯度下降算法每次更新需要对所有的训练集进行计算，计算量较大。

而随机梯度下降算法每次更新只用一组训练数据，收敛时会在最小值附近徘徊。

正规方程式

下面介绍第二种最小化

的方法。

对一个由mxn的矩阵映射到实数的函数f，可以这样定义

，f对A的导数为：

如果

，则

。

下面不加证明地陈述几个事实：

$\cdot f(A)=trAB,\bigtriangledown _{A}trAB=B^{T}$

$\cdot trA=trA^{T}$

$\cdot \bigtriangledown trABA^{T}C=CAB+C^{T}AB^{T}$

最小二乘法回顾

为推导方便，设计下面几个符号。

$X=\begin{bmatrix} - & (X^{(1)}^{T}) &- \\ & (X^{(2)}^{T}) & \\ - & .. & -\\ - & (X^{(m)}^{T}) & - \end{bmatrix}$

因为 $Z^{T}Z=\sum_{i=1}^{m}z_{i}^{2}$

$=\frac{1}{2}\bigtriangledown _{\Theta }tr(\Theta ^{T}X^{T}X\Theta -\Theta ^{T}X^{T}y-y^{T}X\Theta +y^{T}y)$

$=\frac{1}{2}[X^{T}X\Theta +X^{T}X\Theta -X^{T}y-X^{T}y]$

令

则

詹酱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
斯坦福机器学习课学习笔记（一）-梯度下降

本文以斯坦福机器学习公开课为基础，介绍线性回归，梯度下降，最小二乘法等内容。
复制链接

扫一扫

专栏目录

斯坦福机器学习课学习笔记（一）-梯度下降

正规方程式

“相关推荐”对你有帮助么？