【吴恩达】机器学习第5章学习收获

最新推荐文章于 2022-04-07 09:21:13 发布

D.Guan

最新推荐文章于 2022-04-07 09:21:13 发布

阅读量360

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/BRAVE_NO1/article/details/82354678

版权

39 篇文章 0 订阅

订阅专栏

1.多变量线性回归：

数据集解释不同： $x^_{(i)}$ :第i个训练样本（但这里已经是一个向量了） $x_{j}^{(i)}$ 第i个训练样本的第j的特征变量

$h_{\theta }(x)=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+...+\theta _{n}x_{n}$

定义 $x_{0}$ =1

X= $\binom{x_{0}}{x_{n}}$ $\Theta$ = $\binom{\theta _{0}}{\theta _{n}}$ 所以 $h_{\theta }(x)={\theta }'x$ （‘的意思是转置）

2.使用梯度下降处理多变量线性回归，在特征很多的时候，效果比较好。但由于变量较多，需要特征缩放（Feature Scaling),，这样可以使得所有变量都在同范围内，收敛得更快。同时，还有均值归一化处理，与特征缩放同样的道理。

$x=\frac{x-u}{s}$ 一般来说，u是变量均值（可以按照平均值处理），s是变量范围（最大值减去最小值）。

使用梯度下降处理多变量线性回归和单变量基本一致。

3.使用正规方程法处理多变量线性回归。以 $y=a\theta ^{2}+b\theta +c$ 为例，求其导数零点，即可求出 $\theta$ 。同理，推论到J，求其各位变量的偏导数为0，求得各位 $\theta$ .

这里有一个问题： $\Theta =({X}'X)^{-1}{X}'y$ 的推导过程？(推导过程来啦）

使用正规方程法，适合特征比较少的情况，当n小于1万的时候，计算压力不会很大，但n越来越大时，计算会变得很慢。除此之外，正规方程法适用于线性回归，但是对很多其他算法并不是很适用。正规方程法不需要进行特征缩放。

4. ${X}'X$ 不可以逆的原因通常有两个：一个是有冗余的特征，一个是因为样本数量远小于特征的数量。可以选择删除多余的特征，来化解这个问题。比如线性相关的特征之类。其中octave中prinv求解的是伪逆矩阵，不存在无法求逆的情况。

5.我们可以从不同的角度来选取定义特征，不用拘泥。可以用不同的多项式去拟合数据。

6.如何调节学习速率 $\alpha$ ：绘制一个曲线，横坐标为迭代次数，纵坐标为J（误差函数），如果曲线下降的很合适，则认为学习速率选取的合适。学习速率不宜过大，过大会导致无法收敛，过小，收敛速率过慢。

关注

专栏目录