吴恩达机器学习（二）—— 线性回归

最新推荐文章于 2025-03-17 11:51:41 发布

大彤小忆

最新推荐文章于 2025-03-17 11:51:41 发布

阅读量4k

点赞数 14

分类专栏：机器学习文章标签：机器学习线性回归

本文链接：https://blog.csdn.net/HUAI_BI_TONG/article/details/107073163

版权

机器学习专栏收录该内容

26 篇文章

订阅专栏

吴恩达机器学习系列内容的学习目录 $\rightarrow$ 吴恩达机器学习系列内容汇总。

一、单变量线性回归
二、多变量线性回归

线性回归是利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。
回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

一、单变量线性回归

单变量线性回归(Univariate linear regression)又称一元线性回归(Linear regression with one variable)。

1.1 监督学习算法工作流程

在这里插入图片描述

1.2 线性回归模型表示

假设函数(Hypothesis) $h_{\theta }(x)=\theta _{0}+\theta _{1}x$ ，其中 $\theta$ 是模型参数， $x$ 是输入变量/特征。下图中 $y$ 是输出/目标变量。
在这里插入图片描述

1.3 代价函数

代价函数(Cost function)也叫平方误差函数或平方误差代价函数。它的作用是为我们的训练样本 $(x ， y)$ 选择 $\theta _{0}、\theta _{1}$ ，使得 $h_{\theta }(x)$ 接近于 $y$ 。
代价函数 $J(\theta _{0},\theta _{1})=\frac{1}{2m}\sum_{i=1}^{m} (h _{\theta}(x^{(i)})-y^{(i)})^{2}$

其中， $m$ 是训练样本的数量。
我们的目标是 $minimizeJ(\theta _{0},\theta _{1})$ ，得到 $\theta _{0}、\theta _{1}$ 的值。

1.4 梯度下降

梯度下降(Gradient descent)是一个用来求函数极小值的算法，将使用梯度下降算法来求出代价函数 $J(\theta _{0},\theta _{1})$ 的最小值。但当选择不同的初始参数组合，可能会找到不同的局部最小值。梯度下降算法的实现：
$Repeat\ _{}\ _{}until\ _{}\ _{}convergence\ _{}\ _{}\left \{ \theta _{j}:=\theta _{j}-\alpha \frac{\partial }{\partial\theta _{j} }J(\theta _{0},\theta _{1})\ _{}\ _{}(for j=0 \ _{}and\ _{} j=1) \right \}$

其中， $\alpha$ 是学习率，用来控制梯度下降时的步长。若 $\alpha$ 很大，则说明梯度下降会很迅速；若 $\alpha$ 很小，则说明梯度下降会很缓慢。并且上式中 $\theta _{0}$ 和 $\theta _{1}$ 需同时更新(Simultaneous update)。
在这里插入图片描述对于上图来说，只有一个参数 $\theta _{1}$ ，当运行梯度下降接近局部最小值时，导数项 $\frac{d }{d\theta _{1} }J(\theta _{1})$ 越小，步长 $\alpha$ 会自动减小，直到到达最低点( $\alpha=0$ )，不需要另外减小 $\alpha$ 。

1.5 梯度下降的线性回归

线性回归模型： $h_{\theta }(x)=\theta _{0}+\theta _{1}x$
$J(\theta _{0},\theta _{1})=\frac{1}{2m}\sum_{i=1}^{m} (h _{\theta}(x^{(i)})-y^{(i)})^{2}$

梯度下降算法：
$Repeat\ _{}\ _{}until\ _{}\ _{}convergence\ _{}\ _{}\left \{ \theta _{j}:=\theta _{j}-\alpha \frac{\partial }{\partial\theta _{j} }J(\theta _{0},\theta _{1})\ _{}\ _{}(for j=0 \ _{}and\ _{} j=1) \right \}$

用梯度下降算法实现线性回归模型代价函数的最小化： $\min_{\theta _{0},\theta _{1}}J(\theta _{0},\theta _{1})$

推导可得 $\theta _{0}，\theta _{1}$ 的更新公式：
$\frac{\partial }{\partial\theta _{j} }J(\theta _{0},\theta _{1})=\frac{\partial }{\partial\theta _{j} }\frac{1}{2m}\sum_{i=1}^{m} (h _{\theta}(x^{(i)})-y^{(i)})^{2}=\frac{\partial }{\partial\theta _{j} }\frac{1}{2m}\sum_{i=1}^{m} (\theta _{0}+\theta _{1}x^{(i)}-y^{(i)})^{2}$

$\left\{\begin{matrix} \theta _{0}\ _{}\ _{} j=0:\ _{}\ _{}\frac{\partial }{\partial\theta _{0} }J(\theta _{0},\theta _{1})=\frac{1}{m}\sum_{i=1}^{m} (h _{\theta}(x^{(i)})-y^{(i)})\ _{}\ _{}\ _{}\ _{}\ _{}\\ \theta _{1}\ _{}\ _{} j=1:\ _{}\ _{}\frac{\partial }{\partial\theta _{1} }J(\theta _{0},\theta _{1})=\frac{1}{m}\sum_{i=1}^{m} (h _{\theta}(x^{(i)})-y^{(i)})x^{(i)} \end{matrix}\right.$

$\begin{matrix} Repeat\ _{}\ _{}until\ _{}\ _{} convergence\left \{ \theta _{0}:=\theta _{0}-\alpha \frac{1}{m}\sum_{i=1}^{m} (h _{\theta}(x^{(i)})-y^{(i)}) \right.\\ \ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\theta _{1}:=\theta _{1}-\alpha \frac{1}{m}\sum_{i=1}^{m} (h _{\theta}(x^{(i)})-y^{(i)})x^{(i)}\left. \right \} \end{matrix}$

二、多变量线性回归

2.1 多维特征

假设函数 $h_{\theta }(x)=\theta _{0}+\theta _{1}x_{1}+\theta _{2}\ x_{2}+...+\theta _{n}\ x_{n}=\theta ^{T}X$ ，其中 $n$ 是特征数量， $\theta$ 是模型参数， $x$ 是输入变量/特征， $\theta$ 和 $x$ 都是 $n + 1$ 维向量。
$\begin{matrix} \begin{matrix} X=\begin{bmatrix} x_{0}\\ x_{1}\\ ...\\ x_{n} \end{bmatrix}& \theta =\begin{bmatrix} \theta_{0}\\ \theta_{1}\\ ...\\ \theta_{n} \end{bmatrix} \end{matrix} & \end{matrix}$

2.2 多变量梯度下降

$\begin{matrix} Hypothesis:h_{\theta }(x)=\theta ^{T}X=\theta _{0}+\theta _{1}x_{1}+\theta _{2}\ x_{2}+...+\theta _{n}\ x_{n}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\\ Parameters:\theta _{0},\theta _{1},...,\theta _{n}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\\ Cost\ _{}\ _{}function:J(\theta )=J(\theta _{0},\theta _{1},...,\theta _{n})=\frac{1}{2m}\sum_{i=1}^{m} (h _{\theta}(x^{(i)})-y^{(i)})^{2}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\\ Gradient\ _{}\ _{}descent:Repeat\left \{ \theta _{j}:=\theta _{j}-\alpha \frac{\partial }{\partial\theta _{j} }J(\theta) \right \}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\\ New\ _{}\ _{}algorithm(n\geq 1):Repeat\left \{ \theta _{j}:=\theta _{j}-\alpha \frac{1}{m}\sum_{i=1}^{m} (h _{\theta}(x^{(i)})-y^{(i)}) {x_{j}}^{(i))} \right \} \end{matrix}$

2.2.1 特征缩放

特征缩放(Feature scaling)是为了确保特征在一个相近的范围内，使得算法更快收敛。可以使用均值归一化的方法实现特征缩放。
均值归一化: $x_{n}=\frac{x_{n}-\mu_{n}}{S_{n}}$

其中， $\mu_{n}$ 是平均值， $S_{n}$ 是标准差。

2.2.2 学习率

在这里插入图片描述        梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们可以通过绘制迭代次数和代价函数的图来观察算法在何时趋于收敛。如果在一次迭代中， $J(\theta)$ 的值小于 $\frac{10^{-3}}{\varepsilon}$ ，则可以说此次迭代是收敛的。
       学习率 $\alpha$ 的选择：
              - $\alpha$ 太小：收敛很慢；
              - $\alpha$ 太大：每一次迭代中 $J(\theta)$ 可能不总是下降的，可能会导致最后不收敛；
              - 选择 $\alpha$ 时，可以尝试 $_{}\ _{}...,0.001,0.003,0.01,0.03,0.1,0.3,1,...$ 等值。

2.3 特征和多项式回归

多项式回归可以用线性回归的方法来拟合，非常复杂的函数，甚至是非线性函数都可以。
在这里插入图片描述假设函数 $h_{\theta }(x)=\theta _{0}+\theta _{1}x_{1}+\theta _{2}\ x_{2}+\theta _{3}\ x_{3}=\theta _{0}+\theta _{1}(feature)+\theta _{2} (feature)^{2}+\theta _{3}(feature)^{3}$ 。其中， $x_{1}=(feature)$ ， $x_{2}= (feature)^{2}$ ， $x_{3}= (feature)^{3}$

2.4 正规方程

       正规方程(Normal Equation)是一种求 $\theta$ 的解析解法，它是通过求解方程 $\frac{\partial }{\partial\theta _{j} }J(\theta _{j})=0$ 来找出使得代价函数最小的参数的 $\theta$ ,不需要进行特征缩放。
       使用正规方程解出： $\theta=(X^{T}X)^{-1}X^{T}y$
        $\theta=(X^{T}X)^{-1}X^{T}y$ 的推导过程：
$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m} (h _{\theta}(x^{(i)})-y^{(i)})^{2}$

将上式转化为矩阵表达形式：
$_{}\ _{}\ _{}\ _{}\ J(\theta)=\frac{1}{2}(X\theta-y)^{T}(X\theta-y)=\frac{1}{2}(\theta^{T}X^{T}-y^{T})(X\theta-y)$

$=\frac{1}{2}(\theta^{T}X^{T}X\theta-\theta^{T}X^{T}y-(y^{T}X)^{T}-y^{T}y)$

接下来对 $J(\theta)$ 求偏导(提示： $\frac{dAB}{dB}=A^{T},\frac{dX^{T}AX}{dX}=2AX$ )：
$\frac{\partial J(\theta )}{\partial \theta }=\frac{1}{2}(2X^{T}X\theta-X^{T}y-(y^{T}X)^{T}-0)$

$_{}\ _{}\ _{}\ _{}\ _{}\ _{}\ =\frac{1}{2}(2X^{T}X\theta-X^{T}y-X^{T}y-0)$

$=X^{T}X\theta-X^{T}y _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\ _{}\$

令 $\frac{\partial J(\theta )}{\partial \theta }=0$ ，则 $\theta=(X^{T}X)^{-1}X^{T}y$
梯度下降与正规方程的比较：

梯度下降	正规方程
需要选择 $\alpha$	不需要选择 $\alpha$
需要多次迭代	一次运算得出
当特征数量 $n$ 大时也能较好适用	需要计算 $X^{T}X)^{-1}$ ，当特征数量 $n$ 大时会很慢
适应于各种类型的模型	只适用于线性模型，不适合Logisic回归等其他模型