斯坦福机器学习公开课（2）

最新推荐文章于 2024-10-17 16:15:45 发布

m0_37891619

最新推荐文章于 2024-10-17 16:15:45 发布

阅读量236

点赞数

分类专栏：斯坦福机器学习公开课文章标签：机器学习斯坦福机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37891619/article/details/77918998

版权

斯坦福机器学习公开课专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、线性回归

线性回归假设特征和label满足线性关系。其实线性关系的表达能力特

别强，每个特征对结果的影响强弱可以由特征前的权重所体现。

在这里，我们用 $x_1, x_2, x_3,..., x_n$ 来表示特征。 $\theta$ 为权重

参数，表示每个特征的影响力。

$h_{\theta}(x) = \theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$

定义损失函数为：

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{i})-y^{i})^2$

为了找到使得目标函数最小的 $\theta$ 值，常用两种方法：梯度下降

法和最小二乘法。

2、梯度下降

2.1、批量梯度下降（Batch Gradient Descent）:

批梯度下降法的主要思路：

（1）将 $J(\theta)$ 对所有的权重参数 $\theta$ 进行求导，得到每个

$\theta$ 对应的梯度：

$\frac{\partial{J(\theta)}}{\theta_j} = \sum_{i=1}^{m}(h_\theta(x^i)-y^i)x_j^i$

(2) 由于要最小化损失函数，因而按每个参数 $\theta$ 的梯度负方向来

更新 $\theta$ ：

$\theta_j = \theta_j-\alpha\frac{\partial{J(\theta)}}{\theta_j}$

其中 $\alpha$ 为步长，它能限制收敛的速度，若 $\alpha$ 的值太小，

那么收敛的速度会比较慢；若 $\alpha$ 的值太大，则其可能会跨过最

优值。

（3）重复执行步骤（1）、（2），直到损失函数收敛（如某两次的损

失函数值之差满足所设定的终止条件）。

从上面的算法可以看出，批量梯度下降在每一步更新参数时，都需要

用到训练集里的所有数据。若训练集特别大，那么参数更新的速度会

非常慢。在这种情况下，我们可以使用随机梯度下降。

2.2、随机梯度下降（Stochastic Gradient Descent）:

随机梯度下降的思路如下：

（1）在随机梯度下降里，我们在更新参数时，每次只使用一个训练样

本。第i个样本在参数 $\theta$ 处的导数为：

$\frac{\partial{J^{i}(\theta)}}{\theta_j} = (h_\theta(x^i)-y^i)x_j^i$

（2）更新参数 $\theta$ ：

$\theta_j = \theta_j-\alpha\frac{\partial{J^{i}(\theta)}}{\theta_j}$

（3）重复执行步骤（1）、（2），直到损失函数收敛。

随机梯度下降是通过每个样本来迭代更新一次，如果样本量很大的情

况（例如几十万），那么可能只用其中几万条或者几千条的样本，就

已经将theta迭代到最优解了，对比上面的批量梯度下降，迭代一次需

要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就

需要遍历训练样本10次。但是，SGD伴随的一个问题是噪音较BGD要

多，使得SGD并不是每次迭代都向着整体最优化方向。最小化每条样

本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方

向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全

局最优解附近。

3、最小二乘法

令
$X=\begin{bmatrix} -(x^{(1)})^{T}- \\-(x^{(2)})^{T}-\\-x^{(m)})^{T}-\end{bmatrix}\quad$

$\theta=\begin{bmatrix} \theta_1\\\theta_2\\\theta_n\end{bmatrix}\quad$

$Y=\begin{bmatrix} y^{(1)}\\y^{(2)}\\y^{(m)}\end{bmatrix}\quad$

则损失函数变为

$J(\theta)=\frac{1}{2}(X\theta-Y)^T(X\theta-Y)$

迹运算和导数的一些结论：

（1） $tr(AB)=tr(BA)$

（2） $tr(ABC)=tr(CAB)=tr(BCA)$

（3） $tr(A)=tr(A^T)$

（4） $tr(a)=a$ #其中a为实数。

（5） $\bigtriangledown_A tr(AB)=B^T$

（6） $\bigtriangledown_A tr(ABA^TC)=CAB+C^TAB^T$

则：

$\bigtriangledown_\theta J=\frac{1}{2}\bigtriangledown_\theta(\theta^TX^TX\theta-Y^TX\theta-\theta^TX^TY+Y^TY)$

其中 $\bigtriangledown_\theta\theta^TX^TX\theta=\bigtriangledown_\theta\theta I\theta^TX^TX=2X^TX\theta$

$\bigtriangledown_\theta Y^TX\theta=\bigtriangledown_\theta \theta^TX^TY=X^TY$

则 $\bigtriangledown_\theta J = 2X^TX\theta-2X^TY$

则 $\theta$ 的最优值为 $(X^TX)^{-1}X^TY$ 。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。