吴恩达机器学习_第2周_多维特征

Vincent_2001

已于 2024-07-29 11:54:03 修改

阅读量521

点赞数 14

文章标签： python 算法机器学习

于 2024-07-29 10:13:12 首次发布

本文链接：https://blog.csdn.net/bff66/article/details/140755367

版权

第1周：引言、单变量回归

第2周：多维特征

第 3 章多维特征

第 3 章多维特征

3.1 多维特征和向量化

$h_{\theta}(x) = \theta_0 x_0 + \theta_1 x_1 + \theta_2 x_2 + \cdots + \theta_n x_n$
此时模型中的参数是一个n+1维的向量，任何一个训练实例也都是n+1维的向量，特征矩阵X的维度是m*(n+1)。因此公式可以简化为： $h_{\theta}(x) = \theta^T X$ .

3.2 多变量梯度下降

与单变量线性回归类似，在多变量线性回归中，我们也构建一个代价函数，则这个代价函数是所有建模误差的平方和，即
$J(\theta_0, \theta_1, \ldots, \theta_n) = \frac{1}{2m} \sum_{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right)^2$
其中， $h_{\theta}(x) = \theta_0 x_0 + \theta_1 x_1 + \theta_2 x_2 + \cdots + \theta_n x_n$
我们的目标和单变量线性回归问题中一样，是要找出使得代价函数最小的一系列参数。多变量线性回归的批量梯度下降算法为：
$\text{Repeat}$ {
$\theta_j := \theta_j - \alpha \frac{\partial J}{\partial \theta_j} J(\theta_0, \theta_1, ... , \theta_n)$
}

即

$\text{Repeat}$ {
$\theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} \frac{1}{2m} \sum_{i=1}^{m} \left( h_\theta \left( x^{(i)} \right) - y^{(i)} \right)^2$
}

求导后得到：
$\text{Repeat}$ {
$\theta_j := \theta_j - \alpha \frac{1}{m} \sum_{i=1}^{m} \left(h_\theta(x^{(i)}) - y^{(i)}\right) x_{j}^{(i)} \quad$
$\text{(simultaneously update } \theta_j \text{ for } j=0,1,\ldots,n)$
}

3.3 梯度下降法实践1-特征缩放

3.3.1 目的

不进行特征缩放会很难收敛。 以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000平方英尺，而房间数量的值则是0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。
Alt
如果我们能保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。在这里插入图片描述

3.3.2 三种scaling的方式

Dividing by Maximum： $X_i→ \frac{X_i}{max(X_1, X_2, ... , X_n)}$
Mean Scaling: $X_i → \frac{X_i - \mu}{max - min}$
Z-score Standardization: $x_n=\frac{x_n-\mu}{s},$ 其中 $\mu$ 是平均值， $s$ 是标准差。

3.4 梯度下降法实践2-判断梯度下降是否收敛

- 通过图像判断：
在这里插入图片描述
- Automatic Convergence Test：
Let $\epsilon$ be $10^{-3}$ . If $J (w, b)$ decreases by ≤ $\epsilon$ in one iteration, then declare convergence.

3.5 梯度下降法实践3-学习率 $\alpha$

问题： 如何选择合适的学习率大小？
当我们运行梯度算法迭代的时候，我们有时会发现代价函数J随着迭代次数的增加呈现上下摆动的趋势，这时候就要想到可能是选取了不合适的学习率。
在这里插入图片描述
例如，如果 $\alpha$ 选择得过大，算法就会在J的最低点处不断横跳，极坏的情况下可能会导致代价函数J会不断增大，最终无法收敛。这时候的解决方案便是减小学习率 $\alpha$ 。

如果学习率过小，则达到收敛所需的迭代次数会非常高；
如果学习率过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

通常可以考虑尝试些学习率： $\alpha$ = 0.01, 0.03, 0.1, 0.3, 1, 3, 10.

3.6 多项式回归

房价预测问题
在这里插入图片描述

$h_{\theta}(x)=\theta_{0}+\theta_{1}\times frontage+\theta_{2}\times depth$
$x_{1}=frontage(临街宽度)，x_{2}=depth(纵向深度)，x=frontage*depth=area(面积)，则:$
$h_{\theta}(x)=\theta_{0}+\theta_{1}x$
线性回归并不适用于所有数据，有时我们需要曲线来适应我们的数据，比如一个二次方模型:
$h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}^{2}$
或者三次方模型:
$h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}^{2}+\theta_{3}x_{3}^{3}$

在这里插入图片描述

通常我们需要先观察数据然后再决定准备尝试怎样的模型。另外，我们可以令：
$x_{2}=x_{2}^{2},x_{3}=x_{3}^{3}$ ，从而将模型转化为线性回归模型。
根据函数图形特性，我们还可以使：
$h_{\theta}(x)=\theta_{0}+\theta_{1}(size)+\theta_{2}(size)^{2}$
或者：
$h_{\theta}(x)=\theta_{0}+\theta_{1}(size)+\theta_{2}\sqrt{size}$
注：如果我们采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要。

3.7 正规方程

3.7.1 定义与计算过程

正规方程是一种用于求解线性回归模型参数的方法，它直接通过数学公式计算得出参数的解析解。以下是正规方程的计算步骤：
假设我们有以下线性回归模型：
$X\theta + \epsilon$
其中：

$y$ 是一个大小为 $(n, 1)$ 的向量，表示观测到的目标值。
$X$ 是一个大小为 $(n, m)$ 的矩阵，表示特征值，每一行对应一个样本，每一列对应一个特征，并且 $X$ 通常包含一个全为1的列，代表截距项 $\theta_0$ 。
$\theta$ 是一个大小为 $(m, 1)$ 的向量，表示模型参数。
$\epsilon$ 是一个大小为 $(n, 1)$ 的向量，表示误差项。
正规方程的目标是最小化平方误差，即最小化以下损失函数：
$J(\theta) = \frac{1}{2n} (X\theta - y)^T (X\theta - y)$
为了找到使 $J(\theta)$ 最小的 $\theta$ ，我们需要对 $J(\theta)$ 关于 $\theta$ 进行求导，并令导数等于零。以下是计算步骤：

变形：
$J(\theta)=\frac{1}{2n}(X\theta-y)^T(X\theta-y)=\frac{1}{2n}(\theta^TX^T-y^T)(X\theta-y)$
$=\frac{1}{2n}(\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta-y^Ty)$
求导：
$\frac{\partial J(\theta)}{\partial \theta} = \frac{\partial}{\partial \theta} \left[ \frac{1}{2n}(\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta-y^Ty)\right]$
这里对矩阵求导，需要用到以下2个矩阵的求导法则:
$\frac{dAB}{dB}=A^T$
$\frac{dX^TAX}{dX}=2AX$
应用法则：
$\frac{\partial J(\theta)}{\partial \theta}=\frac{1}{2n}(2X^TX\theta-X^Ty-(y^TX)^T-0)$
$=\frac{1}{2n}(2X^TX\theta-X^Ty-X^Ty-0)=\frac{1}{n}X^TX\theta-X^Ty$
令导数等于零：
$\frac{1}{n} X^T (X\theta - y) = 0$
求解 $\theta$ ：
$\theta = (X^T X)^{-1} X^T y$
这就是正规方程的解。注意，这里假设 $X^T X$ 是可逆的，即矩阵 $X$ 的列是线性独立的。如果 $X$ 包含一个全为1的列作为截距项，那么 $X^T X$ 通常总是可逆的。

3.7.2 Python代码实现

在实际应用中，计算 $\beta$ 时，我们会使用数值计算库（如 NumPy）来计算矩阵的逆和乘法，因为手动计算这些矩阵运算是非常复杂和耗时的。下面是一个使用 Python 和 NumPy 来计算正规方程解的简单示例：

import numpy as np

# 假设 X 是特征矩阵，y 是目标值向量
X = np.array([[1, x1], [1, x2], ..., [1, xn]])  # 包含截距项
y = np.array([y1, y2, ..., yn])

# 使用 NumPy 计算正规方程解
beta = np.linalg.inv(X.T @ X) @ X.T @ y

3.7.3 与梯度下降的比较

特性	正规方程 (Normal Equation)	梯度下降 (Gradient Descent)
原理	一次运算，直接得出解析解	多次迭代，逐步逼近最优解
计算复杂度	$O(n^3)$ ，适用于特征较少的情况	$O(kn^2)$ ，k 是迭代次数，适用于特征较多的情况
适用性	特征数量较少时更有效，否则运算代价大。（通常适用n<10000）	特征数量非常多时更适用
学习率	不需要选择学习率	需要选择合适的学习率，影响收敛速度和结果
优点	一次计算得出结果，不需要迭代	适用于大规模数据集，灵活性好
缺点	当特征非常多时，计算量大，可能不适用	需要多次迭代，学习率选择不当可能导致问题
数据要求	特征不能有严重的多重共线性	特征需要归一化，以保证收敛速度
局部最小值	对于线性回归，正规方程总能得到全局最小值	对于非线性问题，可能会卡在局部最小值

总结，只要特征变量的数目并不大，标准方程是一个很好的计算参数 $\theta$ 的替代方法。

Vincent_2001

关注

14
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习_第2周_多维特征

以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000平方英尺，而房间数量的值则是0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。当我们运行梯度算法迭代的时候，我们有时会发现代价函数J随着迭代次数的增加呈现上下摆动的趋势，这时候就要想到可能是选取了不合适的学习率。此时模型中的参数是一个n+1维的向量，任何一个训练实例也都是n+1维的向量，特征矩阵X的维度是m*(n+1)。如何选择合适的学习率大小？
复制链接

扫一扫