第01周：吴恩达 Andrew Ng 机器学习

最新推荐文章于 2024-06-26 09:48:29 发布

MANDYBOOM

最新推荐文章于 2024-06-26 09:48:29 发布

阅读量488

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/MANDYBOOM/article/details/126213987

版权

学习内容：

1 机器学习

1.1 机器学习定义

①Arthur Samuel：在没有明确设置的情况下，使计算机具有学习能力的研究领域。

e.g.跳棋游戏，使计算机与自己对弈上万次，使计算机学习到什么是好布局并获得丰富的下棋经验。

②Tom Mitchell：计算机程序从经验E中学习解决某一任务T，进行某一性能度量P，通过P测定在T上的表现因经验E而提高。

e.g.跳棋游戏：经验E是程序与自己下几万次跳、任务T是玩跳棋、性能度量P是与新对手玩跳棋时赢的概率。

1.2 监督学习

教计算机如何去完成任务。它的训练数据是有标签的，训练目标是能够给新数据（测试数据）以正确的标签。

1.2.1 回归类问题

给定的数据集是真实的一系列连续的值。计算机通过学习选择适当的模型来模拟这个数据值（比如一次函数或二次函数等）。

1.2.2 分类问题

计算机通过学习，根据输入的特征值，得出的结果是一个离散值，比如肿瘤问题，根据年龄、肿瘤大小，得出肿瘤是良性0或恶性1。

1.3 无监督学习

只给算法一个数据集，但是不给数据集的正确答案，由算法自行分类。

1.3.1 聚类算法

谷歌新闻每天搜集几十万条新闻，并把相似的新闻进行分类
市场对用户进行分类
鸡尾酒算法

2 线性回归

假设函数（用来进行预测的函数）

$h_{\theta }\left ( x \right )=\theta _{0}+\theta _{1x}$

2.1 代价函数

（平方误差代价函数）：解决回归问题最常用的手段。

$J\left ( \theta _{_{0}},\theta _{1} \right )=\frac{1}{2m}\sum_{i=1}^{n}\left ( h_{\theta }\left ( x^{\left ( i \right )} \right )-y^{\left ( i \right )} \right )^{2}$

（其中m表示训练样本的数量）

优化目标： $minimize J\left ( \theta _{0},\theta _{1} \right )$

2.1.1 只含一个参数 $\theta _{1}$

不断改变 $\theta _{1}$ 的值，通过代价函数 $J\left (\theta _{1} \right )=\frac{1}{2m}\sum_{i=1}^{n}\left ( h_{\theta }\left ( x^{\left ( i \right )} \right )-y^{\left ( i \right )} \right )^{2}$ 得到多组结果，并找到最小的的代价结果，即最优目标 $minimize J\left (\theta _{1} \right )$

2.1.2 同时考虑两个参数 $\theta _{0}$ 、 $\theta _{_{_{1}}}$

此时，将代价函数变成三维图像以及平片图（等高线图），其中等高线最小椭圆中心点代表代价函数的最小值，即 $minimize J\left ( \theta _{0},\theta _{1} \right )$ 。

2.2 梯度下降算法

目标：最小化代价函数
思路：

①初始化参数 $\theta _{0}$ 和 $\theta _{1}$ 的值（通常为0）

②不断地一点点改变两个参数 $\theta _{0}$ 和 $\theta _{1}$ 的值，使代价函数的值 $J\left ( \theta _{0},\theta _{1} \right )$ 变小，直到找到 $J$ 的最小值或局部最小值。

梯度：函数中某一点(x, y)的梯度代表函数在该点变化最快的方向（当所选的开始点有偏差的时候，可能到达另一个局部最小值）。

梯度下降算法的公式

$\theta _{j}:= \theta _{j}-\alpha \frac{\partial }{\partial \theta _{j}}J\left ( \theta _{0},\theta _{1} \right ) \left ( for j = 0 and j = 1 \right )$

其中 $\alpha$ 被称为学习率，控制梯度下降的步子大小， $\alpha$ 越大，梯度下降越快。

同时， $\theta _{0}$ 和 $\theta _{1}$ 的值需要同时更新，若先更新了 $\theta _{0}$ 的值，会影响temp1的值，使其与同时更新的值不同。

$\alpha$ 的选取：如果 $\alpha$ 太小，会导致每次移动的步幅都很小，最终需要很多步才能最终收敛；
如果 $\alpha$ 太大，会导致每次移动的步幅过大，可能会越过最小值，无法收敛甚至会发发散。

更新 $\theta _{j}$ 的原理

在梯度下降法中，当接近局部最低点时，梯度下降法会自动采取更小的幅度（因为局部最低时导数 $\frac{\partial }{\partial \theta _{j}}J\left ( \theta _{0},\theta _{1} \right )$ 等于零），所以越靠近最低点，导数值越小，所以实际上没有必要另外减小α.

2.3 线性回归（Batch）的梯度下降

公式推导过程

$J\left ( \theta _{0},\theta _{1} \right )=\frac{1}{2m}\sum_{i=1}^{m}\left ( h\left ( x^{\left ( i \right )} \right )-y^{\left ( i \right )} \right )^{2}=\frac{1}{2m}\sum_{i=1}^{m}\left ( \left ( \theta _{0}+\theta _{1}x^{\left ( i \right )} \right )-y^{\left ( i \right )} \right )^{2}$

当 $j=0$ 时，对 $\theta _{0}$ 求偏导

$\frac{\partial J\left ( \theta _{0},\theta _{1} \right )}{\partial \theta _{0}}=\frac{1}{m}\sum_{i=1}^{m}\left ( \left ( \theta _{0}+\theta _{1}x^{\left ( i \right )}\right )-y^{\left ( i \right )} \right )$

当 $j=1$ 时，对 $\theta _{1}$ 求偏导

$\frac{\partial J\left ( \theta _{0},\theta _{1} \right )}{\partial \theta _{1}}=\frac{1}{m}\sum_{i=1}^{m}\left ( \left ( \theta _{0}+\theta _{1}x^{\left ( i \right )}\right )-y^{\left ( i \right )} \right )x^{\left ( i \right )}$

更新 $\theta _{0}$ 和 $\theta _{1}$

$\theta _{0 }:= \theta _{0 } -\alpha \frac{1}{m}\sum_{i=1}^{m}\left ( \left ( \theta _{0}+\theta _{1}x^{\left ( i \right )}\right )-y^{\left ( i \right )} \right )$

$\theta _{1}:= \theta_{1}-\alpha \frac{1}{m}\sum_{i=1}^{m}\left ( \left ( \theta _{0}+\theta _{1}x^{\left ( i \right )}\right )-y^{\left ( i \right )} \right )x^{\left ( i \right )}$

线性回归的梯度下降函数是凸函数，凸函数没有局部最优解，只有一个全局最优（总是收敛到全局最优）。

3 矩阵

3.1 矩阵加法、标量乘法运算

两个矩阵相加，将这两个矩阵的每一个元素都逐个相加（只有相同维度的两个矩阵才能相加，结果还是与相加的两个矩阵维度相同的矩阵）。

矩阵中每个元素逐个乘以标量。

3.2 矩阵向量乘法

一个矩阵和一个向量乘得到一个新的列向量。
列向量的维数就是矩阵的行数。
矩阵的列数必须等于向量的维数。

3.3 矩阵乘法及特征

矩阵A×B，只要求A的列数要等于B的行数，而不一定要求A的行数等于B的列数；得到的结果矩阵C的行数和A的行数相等、C的列数和B的列数相等。
A矩阵每一行分别于B矩阵的每一列逐个相乘求和。

特征：①矩阵乘法不符合交换律；②矩阵乘法符合结合律。
单位矩阵（I）：①维度n*n；②主对角线上为1，其余为0；③矩阵 $A\cdot I=I\cdot A=A$

3.3 逆和转置

逆矩阵：① $A$ 的逆矩阵为 $A^{-1}$ ；② $A\cdot A^{-1}=1$ ；③不存在逆矩阵的矩阵为奇异矩阵（退化矩阵）；
转置矩阵：① $A$ 的转置矩阵为 $A^{^{T}}$ ；② $A^{T}$ 的维度与 $A$ 的维度行列颠倒（m x n → n x m）；③将原矩阵变为转置矩阵，将第n行变为第n列。

4 多元线性回归

4.1 假设函数（含有多个特征）

4.1.1 多变量样本数据及假设函数公式

其中， $n$ 表示特征数量； $x^{(i)}$ 表示第i组样本的特征值组合； $x_{j}^{(i)}$ 表示第i组样本特征值中第j个特征值数据。

公式： $h_{\theta }\left ( x \right )=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+......+\theta_{n}x_{n}$ (定义 $x_{0}$ =1,即 $x_{0}^{\left ( i \right )}$ =1)
$x=[x_{0},x_{1},x_{2},...,x_{n}]^{T} x\epsilon R^{n+1}$
$\theta=[\theta_{0},\theta_{1},\theta_{2},...,\theta_{n}]^{T} \theta\epsilon R^{n+1}$
$h(\theta)=\theta^{T}x$

4.2 多元梯度下降法

代价函数 $J(\theta_{0},\theta_{1},...,\theta_{n})=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2}$
梯度下降算法： $\theta_{j}:= \theta_{j}-\alpha \frac{\partial }{\partial \theta_{j}}J(\theta_{0},...,\theta_{n})$
先求偏导：

$\frac{\partial J(\theta)}{\partial \theta_{0}}=\frac{1}{m}\sum_{i=1}^{m}((\theta_{0}+\theta_{1}x^{i})-y^{(i)})x_{0}^{(i)}$

$\frac{\partial J(\theta)}{\partial \theta_{1}}=\frac{1}{m}\sum_{i=1}^{m}((\theta_{0}+\theta_{1}x^{i})-y^{(i)})x_{1}^{(i)}$

$\frac{\partial J(\theta)}{\partial \theta_{2}}=\frac{1}{m}\sum_{i=1}^{m}((\theta_{0}+\theta_{1}x^{i})-y^{(i)})x_{2}^{(i)}$

然后更新：

$\theta_{0}:= \theta_{0}-\alpha \frac{1}{m}\sum_{i=1}^{m}((\theta_0+\theta_{1}x^{(i)})-y^{(i)})x_0^{(i)}$

$\theta_{1}:= \theta_{0}-\alpha \frac{1}{m}\sum_{i=1}^{m}((\theta_0+\theta_{1}x^{(i)})-y^{(i)})x_1^{(i)}$

$\theta_{2}:= \theta_{0}-\alpha \frac{1}{m}\sum_{i=1}^{m}((\theta_0+\theta_{1}x^{(i)})-y^{(i)})x_2^{(i)}$

4.3 梯度下降法Ⅰ——特征缩放

使不同特征的取值在相近的范围内，梯度下降法可以更快收敛。所以如果特征值范围相差较大，特征缩放就是一种有效的方法。

执行特征缩放的目的：将特征的取值约束到-1到+1的范围内。（-1、+1不绝对，仅表示适中的范围，不过大，不过小）
均值归一化：使特征值减去平均值再除以取值范围

$X_{i}=\frac{x_{i}-\mu }{\sigma }$ ( $\mu$ 为此特征的平均值， $\sigma$ 为此特征范围max-min)

e.g. 房子的面积（取值0~2000，假设平均面积为1000）

$X_1=\frac{x_1-1000}{2000}$

只要特征值转换为相近似的范围即可，特征范围无需很精确，仅为了让梯度下降更快，迭代次数更少。

4.4 梯度下降法Ⅱ——学习率

在梯度下降算法正常工作的情况下，每一步迭代之后代价函数值 $J(\theta)$ 都应该下降， $J(\theta)$ 与迭代次数的图像应该是一条逐渐下降的曲线。

此图像可帮助判断梯度下降算法是否已经收敛，当迭代次数达到一定值，代价函数值趋于不变，此时近乎收敛。
图像还可帮助确定梯度下降算法是否正常运行。当学习率 $\alpha$ 取值过大时，会导致，代价函数非正常进行，例如当随着迭代次数增长，代价函数 $J(\theta)$ 值反而越来越大，说明选取学习率过大，使，下降过程中屡次直接越过最小值。解决方法是使用较小的学习率。

只要学习率 $\alpha$ 足够小，每次迭代之后代价函数值都会下降；若没有下降，解决办法就可以尝试一个较小的学习率，但学习率也不能太小，因为过小可能会造成梯度下降算法收敛很慢。
选取合适的 $\alpha$ ： 0.001，0.003，0.01，0.03，0.1，0.3，1，…以3为倍数找到一个最大值，以该最大值或比该最大值略小的值作为 $\alpha$ 。

4.5 特征和多项式回归

4.5.1 特征

有时可以不用一开始使用的特征，定义新的特征可能会产生新的更好的模型，这取决于审视特定问题的角度。例如房价预测：可设两个特征，房子土地宽度 $x_1$ ，和土地长度 $x_2$ ，那么假设函数可写为 $h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x_2$ ；还可直接设一个特征，即为房子所占土地面子x，因为面积为长乘宽，此时假设函数可写为 $h_{\theta}(x)=\theta_0+\theta_1x$ .

4.5.2 多项式回归

比如有一个住房价格数据集，可能存在多个不同的模型用于拟合。

选择二次函数与数据拟合

但随着面积继续增大，住房价格开始下降，二次模型不合理。

选择三次函数与数据拟合

但使用三次函数，需要进行特征缩放，因为三个特征值范围相差较大。

选择平方根函数与数据拟合

4.6 正规方程（区别于迭代方法的直接解法）

对于某些线性回归问题，是一种更好求参数 $\theta$ 最优值的方法。

求最优值过程：对代价函数 $J(\theta)$ 求偏导，使导数等于0，即可求得 $\theta$ 的最优值。

$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$

求偏导，再求 $\theta$

$\theta=(X^TX)^{-1}X^Ty$

根据例子可知

$x^{(i)}=\begin{pmatrix} x_0^{(i)}\\ x_1^{(i)}\\ .\\ .\\ .\\ x_n^{(i)}\end{pmatrix}\in R^{n+1},y=\begin{pmatrix} y_1\\ y_2\\ .\\ .\\ .\\ y_m\end{pmatrix}\epsilon R^m$

需要加入一列 $x_0$ ，令其都等于1

$X=\begin{pmatrix} 1 & x_1^{(1)}& .& .& .& x_j^{(1)}& .& .& .& x_n^{(1)}\\ 1& x_1^{(2)}& .& .& .& x_j^{(2)} & .& .& .& x_n^{(2)}\\ . & .& .& & & .& .& & & .\\ .& .& & .& & .& & .& & .\\ .& .& & & .& .& & & .& .\\ 1 & x_1^{(m)}& .& .& .& x_j^{(m)}& .& .& .& x_n^{(m)}\end{pmatrix}=\begin{pmatrix} (x^{(1)})^T\\ (x^{(1)})^T\\ .\\ .\\ .\\ (x^{(m)})^T\end{pmatrix}\in R^{m\times (n+1)}$