机器学习课程讲义·第二章，线性模型系列_数学建模机器学习讲义-CSDN博客

本文链接：https://blog.csdn.net/qq_15863621/article/details/120391179

上期回顾

上期机器学习课程讲义·第一章，绪论，我们一起认识了什么是机器学习，机器学习的研究范式和模型选择的基本方法；此外，我还带领大家从零开始推导了高斯分布，并从最基本的线性回归模型开始一步步推广到软间隔的支持向量机模型，以此见识了机器学习中的数学之美和算法之美；其次，我们还了解了机器学习的两种学派，即频率学派和贝叶斯学派，并分别讲解了频率学派的最大似然估计（MLE）和贝叶斯学派的最大后验估计（MAP）方法；上一章最后我们讨论了机器学习发展历史和应用现状。

本期导读

本章开始，我们一起学习机器学习中最基本的线性模型系列。在本章的学习中，我会首先带大家认识基础的一般回归模型，并使用线性组合、空间、概率三种不同的视角解读一般回归模型。之后，根据第一章提到的奥卡姆剃刀定律准则，我将讲解一种机器学习中缓解过拟合非常重要的技术-正则化技术，并以此引出LASSO回归和Ridge回归模型。此外，我们还将学习两种经典的线性分类模型：逻辑回归模型和线性判别分析。

符号形式

我们首先约定符号形式，如无特别说明，以后所有章节均采用同样的符号记法。

假定 $N$ 个数据集合，记为 $\mathcal{D}=\{(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_N)\}$ ,其中输入空间 $x_i \in R^P$ ，输出空间 $y_i \in R$ ；输入矩阵记为 $X=(x_1,x_2,\cdots,x_N)^T$ ，输出矩阵记为 $Y=(y_1,y_2,\cdots,y_N)^T$ ，即 $\in R^{N \times P}$ ， $\in R^{N \times 1}$ 。

一般回归模型

线性组合视角

模型形式

首先从线性组合的角度认识一般回归模型。设参数向量 $w=(w_1,w_2,\cdots,w_P)^T$ ，即 $w\in R^{P\times1}$ ，一般回归模型约定模型的输出： $y=f(x)=w^Tx+b\tag{2-1}$ 即， $y$ 是 $x$ 的线性组合。

为了简化记法，我们通常将参数 $b$ 写进参数向量 $w$ 中，此时 $w=(w_1,w_2,\cdots,w_P,b)^T$ ,输入空间变为 $X=(x_1,x_2,\cdots,x_N,1)^T$ ，模型形式变为 $y=f(x)=w^Tx\tag{2-2}$ （注意，此处的 $w 和 x$ 跟公式2-1中不同，方便起见后续出现 $w 和 x$ 均默认带参数分量 $b 和 1$ ）

一般回归模型又称（一般）线性回归模型，值得一提的是，这里的线性指的是参数 $w$ 是线性的，而不要求 $x$ 是线性，如对于 $X=(x_1,x_1^2,\cdots,x_1^P,1)$ ，只要 $w$ 为线性， $f(x)=w^Tx$ 依然是一般线性回归模型。

损失函数

一般回归模型是典型的回归问题，通常采用平方损失函数。即： $L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2\tag{2-3}$ 其中 $y_i$ 如前所述是数据的真实值， $w^Tx_i$ 是一般线性回归模型对输入 $x_i$ 的预测值。

对于回归问题而言，最直观的损失函数应该是绝对值损失函数（见第一章），但因为绝对值损失函数在原点不可导，不能使用费马定理求解，因此通常使用平方损失函数作为替代。平方损失函数是凸函数，可以使用费马定理求得极值。

优化算法

平方损失函数不仅有非常好的函数性质，还具有很好解释的几何意义。它实际上对应了空间中的欧几里得距离（Euclidean Distance），又称欧氏距离。寻找使平方损失函数最小的参数即寻找使空间中的所有数据点到直线或超平面的距离之和最小的参数。解决上述问题的优化算法称为普通最小二乘法（Ordinary Least Square, OLS）。

最小二乘法的数学形式可以写作： $\begin{aligned}\left(w^{*}\right) &=\underset{w}{\arg \min } \sum_{i=1}^{N}\left(f\left(x_{i}\right)-y_{i}\right)^{2} \\ &=\underset{w}{\arg \min } \sum_{i=1}^{N}\left(w^Tx_i-y_i\right)^{2} \end{aligned}\tag{2-4}$

因为平方损失函数优良的求导性质，为了求最小值，可公式2-4右侧求偏导，求导数为零的参数值。方便起见，分别对去掉 $b$ 分量的 $w$ 和 $b$ 求偏导，即： $\frac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^{N} x_{i}^{2}-\sum_{i=1}^{N}\left(y_{i}-b\right) x_{i}\right)=0$ $\frac{\partial E_{(w, b)}}{\partial b}=2\left(N b-\sum_{i=1}^{N}\left(y_{i}-w x_{i}\right)\right)=0\tag{2-5}$ 两个方程，两个未知数，可以求得闭式解： $w=\frac{\sum_{i=1}^{N} y_{i}\left(x_{i}-\bar{x}\right)}{\sum_{i=1}^{N} x_{i}^{2}-\frac{1}{N}\left(\sum_{i=1}^{N} x_{i}\right)^{2}}$ $b=\frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-w x_{i}\right)\tag{2-6}$

矩阵形式

上述使用最小二乘法求解最优参数的过程比较麻烦，我们可以使用矩阵形式来简化表达和运算。使用相同的符号形式，模型三要素（即研究范式中前三个要素：模型形式、损失函数和优化算法）的矩阵表达分别为：

模型形式： $\hat Y=Xw\tag{2-7}$
损失函数： $\begin{aligned} L(w)&=(Xw-Y)^T(Xw- Y) \\ &=w^TX^TXw-Y^TXw-w^TX^TY+Y^TY\\ &=w^TX^TXw-2w^TX^TY+Y^TY \end{aligned}\tag{2-8}$
优化算法：对损失函数进行求导，令导数等于零。 $\begin{aligned} \hat{w}=\operatorname{argmin}_{w} L(w) & \longrightarrow \frac{\partial}{\partial w} L(w)=0 \\ & \longrightarrow 2 X^{T} X \hat{w}-2 X^{T} Y=0 \\ & \longrightarrow \hat{w}=\left(X^{T} X\right)^{-1} X^{T} Y=X^{+} Y \end{aligned}\tag{2-9}$ 其中 $X^+$ 叫做伪逆。

具体的求导方式见下补充知识。

矩阵形式可以简洁地对模型损失函数进行表示，利用矩阵求导的规则也可以对损失函数快速地求导，以获得使损失函数最小的最优参数，后续讨论的模型均采用矩阵形式表达。

补充知识：常见的矩阵求导公式

矩阵运算本质上是一种线性映射，根据输入和输出的不同，这种映射可以分为标量/向量/矩阵向标量/向量/矩阵的映射，具体的求导涉及不同的形式，还包含一些重要的概念，比如梯度、方向导数、雅各比矩阵、黑塞矩阵等。这些概念会在后续合适的章节介绍给大家，本章只讨论两种常用的求导，即 $f (x) = A x$ 和 $f(x)=x^TAx$ 关于变量 $x$ 的导数/梯度（Gradient）。

首先定义梯度（Gradient），它是导数对多远函数的推广，即多元函数对各自分量偏导数形成的向量。其数学形式表达为： $\nabla f(x)=\left(\frac{\partial f}{\partial x_{1}}, \frac{\partial f}{\partial x_{2}}, \ldots, \frac{\partial f}{\partial x_{n}}\right)^T\tag{2-10}$ 根据定义有 $\begin {aligned}\nabla Ax&=\left(\frac{\partial Ax}{\partial x_{1}}, \frac{\partial Ax}{\partial x_{2}}, \ldots, \frac{\partial Ax}{\partial x_{n}}\right)^T\\\\&=(A_1,A_2,\cdots,A_n)^T=A^T\end {aligned} \tag{2-11}$ 思考第二步到第三步是怎么得到的（提示：矩阵列空间的定义）。

特别地，当A为向量时有 $\nabla ax=a^T\tag{2-12}$ 这与一元函数的求导公式在形式上是一致的。

然后我们考虑矩阵 $A$ 的二次型的导数，即 $\nabla x^TAx$ 。

将矩阵的二次型展开，我们有 $y=x^TAx=\sum_{p=1}^{n} \sum_{q=1}^{n} a_{p q} x_{p} x_{q}\tag{2-13}$ 其中 $a_{pq}$ 是矩阵 $A$ 第 $p$ 行第 $q$ 列的元素。

于是， $\begin {aligned} \frac{\partial y}{\partial x_{i}}&=\frac{\partial\left(\sum_{p=1}^{n} \sum_{q=1}^{n} a_{p q} x_{p} x_{q}\right)}{\partial x_{i}}\\&=\sum_{q=1}^{n} a_{i q} x_{q}+\sum_{p=1}^{n} a_{p i} x_{p}\end{aligned}\tag{2-14}$ 可以得到 $\begin{aligned}\nabla x^TAx&=(\sum_{q=1}^{n} a_{1 q} x_{q}+\sum_{p=1}^{n} a_{p 1} x_{p},\sum_{q=1}^{n} a_{1 q} x_{q}+\sum_{p=1}^{n} a_{p 1} x_{p})\cdots,\\&\sum_{q=1}^{n} a_{n q} x_{q}+\sum_{p=1}^{n} a_{p n} x_{p})\\&=(A+A^T)x\end{aligned}\tag{2-15}$ 特别地，当 $A$ 为对称矩阵的时候， $\nabla \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=2 \boldsymbol{A} \boldsymbol{x}\tag{2-16}$ 补充知识结束。

空间视角（几何意义）

考虑一般线性回归模型的几何意义。

$Xw$ 是 $X$ 的列空间，如果 $Y$ 正好在 $X$ 的列空间中，则能够找到一个 $w$ 使得 $Y = Xw$ ，这时候模型完美地拟合了数据（没有误差）。

但是实际情况下， $Y$ 一般不会正好在 $X$ 的列空间中，一方面是因为数据本身存在噪声，一方面因为数据可能不完全服从“回归形式”的规律。这时候就需要找到一个 $w$ 使得 $Y$ 到 $Xw$ 的距离最短（即差异最小）。

我们以二维平面为例用图示（图1）说明。下面的平面α是 $X$ 的列空间，直线是二维的 $Y$ ，需要在平面α中找到一条直线 $Xw$ ,使得 $Y$ 到这条直线的距离最短。
图1一般回归模型的几何视角图示

显然，由 $Y$ 向平面做垂线，可以得到 $Y$ 在平面α上的投影，投影所在的直线为 $Xw$ ,垂线即最短距离，垂线的数学表达式为 $Y - Xw$ 。

根据平面垂线的定义，有 $X^T(Y-Xw)=0\tag{2-17}$ 可以得到： $w=(X^TX)^{-1}X^TY\tag{2-18}$ 结果与最小二乘法一致。

概率视角

考虑概率视角的一般回归模型。前面提过， $Y$ 一般不会恰好在 $X$ 的列空间中，我们设一个服从正态分布的误差 $\epsilon \sim \mathcal{N}\left(0, \sigma^{2}\right)$ ，于是有： $y=w^Tx+\epsilon\tag{1-19}$ 以及： $\sim \mathcal{N}\left(w^Tx, \sigma^{2}\right)\tag{2-20}$ 使用最大似然估计对参数进行估计，对数似然函数为： $\begin{aligned} L(w)&=\log p(Y \mid X, w) \\&=\log \prod_{i=1}^{N} p\left(y_{i} \mid x_{i}, w\right) \\ &=\sum_{i=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi \sigma}} e^{-\frac{\left(y_{i}-w^{T}x_i\right)^{2}}{2 \sigma^{2}}}\right) \end{aligned}\tag{2-21}$ $\sigma$ 是常数，因此求对数似然函数的最大值等同于公式2-22 $\underset{w}{\operatorname{argmax}} L(w)=\underset{w}{\operatorname{argmin}} \sum_{\boldsymbol{w}}\left(y_{i}-w^{T} x_{i}\right)^{2}\tag{2-22}$ 可以发现，与最小二乘法的优化目标一致。

概率视角的一般回归模型可以用图2表示，图2中，每一个样本点 $y$ 服从均值是 $w^Tx$ ，方差为 $\sigma^2$ 的正态分布。
一般回归模型的概率视角图示

一般回归模型的问题

在实施一般回归模型的时候，很重要的一步是选择输入空间 $x$ ，在统计学里，合适的输入空间可以规避共线性，在机器学习领域，我们更加关注合适的输入空间对过拟合/欠拟合的影响。例如，第一章中提到过，平面上 $n - 1$ 个点一定可以用 $n$ 阶多项式来拟合，也就是说如果不考虑模型的复杂度，我们可以尽可能选择较大的输入空间，但是奥卡姆提到定律告诉我们这样是不可取的。

除奥卡姆剃刀定律说明的原理之外，我们还可以从数学角度考虑“如果输入空间的维度过大”可能造成的问题。假设我们有 $N$ 个数据，每个数据有 $P$ 个维度，如果 $P$ 过大，我们假设它远大于 $N$ ，那在最小二乘法求得的闭式解 $X^TX)^{-1}X^TY$ 中会有 $X^TX$ 不可逆的现象出现，这会最优参数的解有无穷多个。实际上，这通常说明我们的说句不足以确定唯一一个解，如果我们从这些解中随机选择一个的话，很可能不是真正好的解（Overfitting了）。

当然，即便是 $P$ 不远大于 $N$ ，上述 $X^TX$ 不可逆的情况仍然存在（想一想计量经济学中的多重共线性）。也就是说，在实际问题中我们很难规避一般回归模型出现过拟合的现象。为了解决这一问题，我们引入正则化技术。

正则化技术

我们首先来看一下正则化技术的基本思想和一般形式，然后再后续的内容中讨论一般回归模型中如何引入正则化技术。

正则化技术的基本思想是通过在表达经验风险的损失函数后加入表示模型负责度的惩罚项，使得模型的结构风险最小化。所谓结构风险，是指经验风险（经验误差）和置信风险（可以理解为泛化误差）之和。正则化技术可以同时控制模型训练误差和测试误差，在保证模型经验误差较小的同时，降低模型复杂度，提高泛化能力。

正则化技术的一般形式可以用表达为公式2-22。 $newL(\cdot)=oldL(\cdot)+\lambda p(\cdot)\tag{1-23}$ 其中， $oldL(\cdot)$ 表示原来的损失函数，括号中的点号表示参数集合， $\lambda p(\cdot)$ 是对参数的惩罚项(penalty)，$ p(\cdot) $是惩罚函数，$ \lambda>0$是惩罚系数。正则化技术通过在原有损失函数中加入参数的惩罚项，控制参数的大小（或者非零参数的数量），从而降低模型的复杂度。

惩罚函数的选择是正则化技术的最重要的环节。一般会选择参数的范数作为惩罚函数，为了方便后面讲解，我们一起回顾一下范数的概念。

范数包括向量范数和矩阵范数。向量范数表征向量空间中向量的大小，矩阵范数表征矩阵引起变化的大小，我们这里提到的范数均为向量范数（以下简称为范数）。一般意义上，一个从向量映射到实数的函数 $f (x)$ ，满足以下三条性质就可称为范数：

非负性： $\geq 0$ 并且 $f (x) = 0$ 的充分必要条件是 $x = 0$ ；
齐次性：对于 $x\in \mathbb{R}$ ，有 $f (c x) = ∣ c ∣ f (x)$ ;
三角不等式： $f(a+b)\leq f(a)+f(b)$ 。

机器学习中常用的范数指的是 $p$ 范数，数学形式如公式2-23所示： $p=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{\frac{1}{p}}\tag{2-23}$ $p$ 常见的取值有0、1、2和 $\pm \infty$ 。

$L 0$ 范数：统计向量中非零元素的个数；
$L 1$ 范数：向量中所有元素的绝对值之和。可用于优化中去除没有取值的信息，又称稀疏规则算子： $\|x\|_{1}=\sum_{i=1}^{n}\left|x_{i}\right|\tag{2-24}$
$L 2$ 范数：即欧式距离： $\|x\|_{2}=\sqrt{\sum_{i=1}^{n}\left|x_{i}\right|^{2}}\tag{2-25}$
$L+\infty$ 范数：向量中的最大值： $\|x\|_{\infty}=\max _{i}\left|x_{i}\right|\tag{2-26}$
- $L-\infty$ 范数：向量中的最小值： $\|x\|_{-\infty}=\min _{i}\left|x_{i}\right|\tag{2-27}$
图2-3展示了 $L 1$ 和 $L 2$ 范数等于常数 $C$ 对应的图像（二维情况）：

除了惩罚函数之外，惩罚项还有一个重要的乘子惩罚系数 $\lambda$ ，一般而言， $\lambda$ 越大，正则技术更加偏重“简单模型”， $\lambda$ 越小，正则技术更加偏重经验误差，需要根据经验选择合适的 $\lambda$ 。

Ridge回归（岭回归模型）

岭回归的基本形式和最优解

接下来考虑 $L 1$ 范数和 $L 2$ 范数作为惩罚函数的回归模型。考虑到回归模型的损失函数（公式2-8）为 $\begin{aligned} L(w)=w^TX^TXw-2w^TX^TY+Y^TY \end{aligned}$ 可以通过求导求得极值，但是 $L 1$ 范数无法直接求导，因此先考虑相对容易的 $L 2$ 范数，加入 $L 2$ 范数到损失函数中的一般回归模型叫Ridge回归（岭回归），稍后我们会解释岭回归中“岭”的含义。

加入正则项后，岭回归模型的损失函数变为： $L_{r2}(w)=L(w) +\lambda\|w\|_{2}^{2}, \lambda>0\tag{2-28}$ 对损失函数求导可以得到最优参数： $\begin{aligned} \hat{w}=\underset{w}{\operatorname{argmin}} L(w)+\lambda w^{T} w & \longrightarrow \frac{\partial}{\partial w} L(w)+2 \lambda w=0 \\ & \longrightarrow 2 X^{T} X \hat{w}-2 X^{T} Y+2 \lambda \hat{w}=0 \\ & \longrightarrow \hat{w}=\left(X^{T} X+\lambda I\right)^{-1} X^{T} Y \end{aligned}\tag{2-29}$
对比一般回归模型的闭式解，我们发现原来伪逆中的 $X^TX$ 变成了 $X^TX+\lambda I$ 。由于 $X^TX$ 是半正定矩阵，加上一个对角矩阵后，一定是满秩的可逆矩阵。最优解中的 $\lambda I$ 对角矩阵只有对角元素上为 $\lambda$ ，就像一条山岭一样，这也是岭回归名字的由来。

概率视角的岭回归模型

前面推导了概率视角的一般回归模型，得到的结论是如果误差项服从均值为 $0$ 方差为 $\sigma^2$ 的正态分布，使用最大似然估计得到的最优参数和使用最小二乘法的最优参数解相同。我们已经知道，最大似然估计是频率学派的观点，如果我们使用贝叶斯学派的概率视角看待回归模型，会得到什么样的结论呢？

答案是：使用贝叶斯学派的概率视角得到的最优参数与使用最小二乘法求解得到的岭回归模型最优参数相同。现在开始推导。

按照贝叶斯学派的观点，模型的参数服从一个先验分布。我们设参数 $w\sim \mathcal{N}\left(0, \Sigma ^{2}\right)$ ，其中 $\Sigma$ 是多维高斯分布的协方差。根据最大后验估计我们有： $\begin{aligned} \hat{w} &=\arg \max _{w} \prod_{i=1}^N P(w \mid y)=\arg \max\prod_{i=1}^N P(y \mid w) \cdot P(w) \\ &=\arg \max _{w} \sum_{i=1}^N \log [P(y \mid w) \cdot P(w)] \\ &=\arg \max _{w}\sum_{i=1}^N \log \left(\frac{1}{\sqrt {2 \pi} \sigma} \cdot \frac{1}{{2 \pi}^\frac{p+1}{2} |\Sigma|^\frac{1}{2}}\right)\\&+\sum_{i=1}^N\log \exp \left\{-\frac{\left(y-w^T x\right)^{2}}{2 \sigma^{2}}-\frac{w^T\Sigma^{-1} w}{2 }\right\} \\ &=\arg \min _{w} \sum_{i=1}^N\frac{\left(y-w^T x\right)^{2}}{2 \sigma^{2}}+N\frac{w^T\Sigma^{-1} w}{2 } \\ &=\arg \min _{w}\sum_{i=1}^N\left(y-w^Tx\right)^{2}+N\sigma^{2}{w^T\Sigma^{-1} w} \end{aligned}\tag{2-30}$
进一步假设 $w$ 的各个分量是独立且同方差的，则 $\Sigma$ 可以写成 $\sigma_0^2I$ ，于是公式2-30变成： $\arg \min _{w}(y-w^Tx)^{2}+N\frac{\sigma^{2}}{\sigma_0^2}{w^T\ w} \tag{2-31}$ 与上述推导的岭回归参数最优化问题相同。

LASSO回归

LASSO回归的损失函数引入了 $L 1$ 范式，即： $L_{r2}(w)=L(w) +\lambda\|w\|_{1}, \lambda>0\tag{2-32}$ 这在形式上并不复杂，只不过由于 $L 1$ 范式无法直接求导（在0处导数不存在），因此不能直接求得闭式解。

通常来讲，LASSO回归可以得到稀疏解，所谓稀疏解是指解向量中有多个0分量的解，因此LASSO回归还可以进行特征选择。当然，稀疏解还有一些其他好处，这里不再赘述。

对LASSO回归的求解可以使用次梯度下降法、坐标下降法、最小角回归法等，这些内容超出了本章的范围，我们在后续章节中继续讨论。在本章中，我们重点讨论为什么LASSO回归容易得到稀疏解。

LASSO回归稀疏解的几何解释

观察公式2-32LASSO回归的损失函数，它可以改写成如下约束优化问题： $\begin{array}{l}\underset{w}{\operatorname{argmin}} L(w) \\ \text { s.t. }\|w\|_{1}\leq C\end{array}\tag{2-33}$ 其中 $C$ 是一个与 $\lambda$ 对应的常数。

前面讲过了 $L 1$ 范数的几何图形，我们可以将公式2-33的约束优化问题看成是在 $||w||_1\leq C$ 的菱形区域（或有菱角的BALL，可行域）内寻找使得 $L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2$ 最小的 $w$ 。

直观表达依然采用二维表示，如图2-4所示。蓝绿色区域是 $L (w)$ 的等高线，等高线与菱形初次相交的地方就是最优解，而初次相交的地方一般会在菱角处，而菱角处的解是稀疏的。
在这里插入图片描述
上述几何解释比较intuitive，也可以有更加数学的解释，要解释清楚需要引入次梯度的概念，这里不做延伸，只做一些提示，有兴趣的同学可以深入研究一下。

对损失函数求次梯度，有： $KaTeX parse error: Got function '\gdef' with no arguments as argument to '\right' at position 1: \̲g̲d̲e̲f̲\df@tag{\text{#…$

当 $\nabla L_{0}-\lambda$ 与 $\nabla L_{0}+\lambda$ 异号时，损失函数会产生一个极小值，而异号的情况通常出现在 $w_j=0$ 处。

++++++++++++++++++++++++分类问题分割线++++++++++++++++++++++++++++++++++++++

上述讨论的是利用线性模型解决回归问题，对于分类问题，需要对原有的模型形式做一些调整。本章讲解两个重要的线性分类模型：逻辑回归和线性判别分析。

逻辑回归模型

回归模型的输出空间是连续值，而对于分类问题，我们要求输出空间是离散值（例如，二分类问题的0和1），如何找到一种映射关系，将连续的输出空间转换为离散的输出空间，这就是逻辑回归模型的基本思路。

具体而言，逻辑回归模型使用sigmoid函数作为映射函数。我们首先认识一下sigmoid函数。

补充知识：sigmoid函数

sigmoid函数又称S函数，因为它的集合图像像一个趴倒了的大S，如图2-5。sigmoid函数的数学表达如公式2-35所示： $\sigma(x)=\frac{1}{1+\exp (-x)}\tag{2-35}$

在这里插入图片描述
sigmoid函数有一些优良的性质，我们经常用到以下几条：

图像关于原点中心对称；
定义域为 $(-\infty, +\infty)$ ,值域为 $(0, + 1)$ ；
单调递增；
处处可导，且导数满足 $\sigma (x)' = \sigma(x)(1-\sigma(x))$ 。

除了sigmoid函数之外，机器学习中还有一些常用的映射（激活）函数，在神经网络的章节我会给大家详细介绍。

模型形式

借助sigmoid函数，逻辑回归模型可以表达如下： $f(x)=\frac{1}{1+\exp (-w^Tx)}\tag{2-36}$ 我们先来看一下这个形式是怎么来的，对于二分类问题，我们假设两个类别 $C_1$ 和 $C_2$ ，根据贝叶斯定理有： $p(C_1|x)=\frac{p(x|C_1)p(C_1)}{p(x|C_1)p(C_1)+p(x|C_2)p(C_2)}\tag{2-37}$
取 $w^Tx=\ln\frac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}$ ，即两个联合概率之比（称之为几率odds）取对数（因此逻辑回归也叫作对数几率回归），我们得到：
$p(C_1|x)=\frac{1}{1+\exp(-w^Tx)}\tag{2-38}$ 也就是说，逻辑回归的输出可以看做是 $C_1$ 类的概率。

自然地， $C_2$ 类的概率为： $p(C_2|x)=1-p(C_1|x)=\frac{\exp(-w^Tx)}{1+\exp(-w^Tx)}\tag{2-39}$

如果 $C_1$ 、 $C_2$ 分别记作1和0，我们有： $p(y|x)=p(C_1|x)^yp(C_2|x)^{1-y}\tag{2-40}$ 上式可以这样理解，如果 $y$ 为1，则等式右边只剩下 $p(C_1|x)$ ，如果y为0，则等式右边只剩下 $p(C_2|x)$ 。

简便起见，后续我们记 $C_1$ 、 $C_2$ 的概率分别为 $p_1$ 和 $p_0$ 。

损失函数

逻辑回归属于分类问题，可以使用第一章提及到的交叉熵作为损失函数，我们有： $L(w)=-\sum_{i=1}^{N}(y_i \log (p_1(x_i))+(1-y_i) \log (p_o(x_i)))\tag{2-41}$ 其中， $p_1(x_i)$ 是对于输入 $x_i$ ，使用逻辑回归得到为 $C_1$ 类的概率。

回顾第一章讲解的交叉熵的物理意义，它是相对熵中可以优化的部分，而相对熵描述了如果用分布P描述事件，比用Q描述事件带来的信息增量。在逻辑回归中，分布P是经验数据中的分布，分布Q是使用逻辑回归预测得到的分布，在训练过程中，我们希望经验误差最小，也就是这两个分布的差异最小。

优化算法

我们对损失函数求梯度（关于参数向量 $w$ ），求解过程中我们先省略求和符号（不影响结果），现在开始： $\begin{aligned}\frac{\partial L'(w)}{\partial w}&=\frac {\partial y_ilog\sigma(x_i)+(1-y_i)log(1-\sigma(x_i))} {\partial w}\\&=-y_ix_i(1-\sigma (x_i))-(1-y_i)(-x_i\sigma(x_i))\\&=-(y_i-\sigma(x_i))x_i\end{aligned}\tag{2-42}$
求导时，用到了sigmoid函数的第四条导函数的性质，令梯度为零，有： $\sum_{i=1}^{N} (y_i-\sigma(x_i))x_i=0\tag{2-43}$ 该式难以直接求出闭式解，我们使用梯度下降法进行优化。

补充：梯度下降法

梯度下降法（Gradient Descent Method）是大数学家柯西提出的优化算法，它的基本思路是对参数首先设置一个初始值，计算该处的损失函数值，然后求出该值处导数（梯度）值，沿着梯度的反方向设定特定的补偿迭代改变参数值，直到损失函数值不再减少或者达到了我们设置的最大迭代次数。

那么问题来了，沿着梯度的反方向一定会使损失函数值变小么？接下来我们证明：沿着梯度的反方向，损失函数值下降，并且是所有方向中下降最快的方向。

证明：
首先证明沿着梯度的反方向，损失函数值下降

将函数在 $x$ 点作一阶泰勒展开： $f(x+\Delta x)=f(\boldsymbol{x})+(\nabla f(\boldsymbol{x}))^{\mathrm{T}} \Delta \boldsymbol{x}+o(\|\Delta \boldsymbol{x}\|)\tag{2-44}$
变形后发现函数的增量与自变量增量、函数梯度的关系为： $f(x+\Delta x)-f(\boldsymbol{x})=(\nabla f(\boldsymbol{x}))^{\mathrm{T}} \Delta \boldsymbol{x}+o(\|\Delta \boldsymbol{x}\|\tag{2-45})$
如果令 $\Delta x$ 与 $\nabla f(\boldsymbol{x})$ 同向，则有： $f(x+\Delta x)-f(\boldsymbol{x})=\lambda(\nabla f(\boldsymbol{x}))^{\mathrm{T}} \nabla f(\boldsymbol{x})+o(\|\Delta \boldsymbol{x}\|)\tag{2-46}$
如果 $\Delta x$ 足够小，则其高阶无穷小可以忽略，可以证明公式2-46的等号左边大于等于零，如果取反方向，则等号左边小于等于0。
接下来证明沿着梯度反方向函数值下降最快：
由内积的定义可以知道： $(\nabla f(x))^{\mathrm{T}} \Delta \boldsymbol{x}=\|\nabla f(\boldsymbol{x})\| \cdot\|\Delta \boldsymbol{x}\| \cdot \cos \theta\tag{2-47}$
显然，当 $\cos \theta$ 取-1时，该值的绝对值最大，即 $\theta=\pi$ 。
证毕。

于是我们有了梯度下降法的基本数学表达： $w^{i+1}=w^{i}-\alpha\nabla L(x)\tag{2-48}$ 其中 $\alpha$ 大于0，称之为步长。

梯度下降法的物理意义见板书内容。

梯度下降法存在一些问题，最常见的有梯度震荡、梯度爆炸和梯度消失，相应的会有一些改进版本，如模拟退火算法、Adam等等。后续有机会我会跟同学们进一步讨论。

回到我们的问题，使用梯度下降法求解逻辑回归的最优参数： $\begin{array}{c}g_{i}=\frac{\partial J(w)}{\partial w_{i}}=\left(p\left(x_{i}\right)-y_{i}\right) x_{i} \\ \\w_{i}^{k+1}=w_{i}^{k}-\alpha g_{i}\end{array}\tag{2-49}$

概率视角的逻辑回归

接下来我们用概率的视角看待逻辑回归模型，还记得逻辑回归模型可以表达成什么形式么（见公式2-40），我们按照后面的符号定义重新写一下，有： $p(y|x)=p_1^yp_0^{1-y}\tag{2-50}$ 熟悉概率论的同学们可能一眼就看出来了，这就是经典的伯努利概型。

于是我们将分类问题用概率分布的形式写了下来，有了概率分布自然地想到使用最大似然估计来求解最优参数。如下： $\hat{w}=\mathop{argmax}_wJ(w)=\mathop{argmax}_w\sum\limits_{i=1}^N(y_i\log p_1+(1-y_i)\log p_0)$
将求最大值改写成求最小值便得到了交叉熵损失函数，与前面的推导一致。

自然，逻辑回归也可以使用正则技术来防止过拟合，本章不再讨论，感兴趣的同学可以自行研究。

线性判别分析

我们讲解另一个经典的分类问题，线性判别分析（Linear Discriminant Analysis，简称LDA）。线性判别分析最早有数学家Fisher（1936）提出，因此也叫Fisher判别分析。

注意区分这里的LDA模型和隐含狄利克雷分布（LDA）模型，后者是机器学习中一种非常经典的文本聚类模型，其中涉及的数理知识非常多，有机会我将跟大家聊一聊。

线性判别分析的基本思想非常简单：将代表数据的多维向量投影到一个超平面上，属于同一类的我们尽可能让他投影后“挨得近一点”，不同类的我们让他投影后“挨得远一点”，这就是所谓的“类内小，类间大”，或者对应计算机科学中的“高内聚，低耦合”。

上述思想可以用图2-5来表示（引自周志华《机器学习》，西瓜书）：
在这里插入图片描述
接下来的问题是，如何将类内聚类和类间距离表示出来，我们来看具体的模型形式。

模型形式

首先讲解投影的概念。假定原来的数据是向量 $x$ ，那么顺着 $ w$ 方向的投影就是标量 $z=w^T\cdot x(=|w|\cdot|x|\cos\theta)\tag{2-52}$ 我们可以用 $w$ 表示我们要找到的超平面。

依然假设数据集有两类，即 $C_1$ 和 $C_2$ ，我们使用两类均值之差的平方来表示类间距离，记作 $\left(\overline{z_{c 1}}-\overline{z_{c 2}}\right)^{2}$ ，使用两类各自的方差之和来表示类内距离，记作： $\operatorname{Var}_{z}\left[C_{1}\right]+\operatorname{Var}_{z}\left[C_{2}\right]$ 。

总结一下，线性判别分析的模型形式是：找到一个超平面 $w^T$ ，使得数据向这个超平面投影之后，类内间距 $\left(\overline{z_{c 1}}-\overline{z_{c 2}}\right)^{2}$ 尽可能小，类间间距 $\operatorname{Var}_{z}\left[C_{1}\right]+\operatorname{Var}_{z}\left[C_{2}\right]$ 尽可能大。

损失函数

为了实现模型形式中设定的目标，我们约定损失函数如下： $L(w)=-\frac{\left(\overline{z_{c 1}}-\overline{z_{c 2}}\right)^{2}}{\operatorname{Var}_{z}\left[C_{1}\right]+\operatorname{Var}_{z}\left[C_{2}\right]}\tag{2-53}$
让损失函数尽可能小，等价于前面所说的“类内小，类间大”。

需要说明的是，当前的主流教材中并没有明确地说公式2-53是线性判别分析的损失函数，实际上，我们可以不定义损失函数，直接根据我们的目标来求得最佳的 $w$ ，这里为了将线性判别分析的分析纳入到第一章的分析框架中，故作了这样的设定。

优化算法

求上述损失函数的最小值，等价于一下优化问题： $\begin{aligned} \hat{w}=\underset{w}{\operatorname{argmin}} L(w) &=\underset{w}{\operatorname{argmax}} \frac{\left(\overline{z_{c 1}}-\overline{z_{c 2}}\right)^{2}}{\operatorname{Var}_{z}\left[C_{1}\right]+\operatorname{Var}_{z}\left[C_{2}\right]} \\ &=\operatorname{argmax}_{w} \frac{w^{T}\left(\overline{x_{c 1}}-\overline{x_{c 2}}\right)\left(\overline{x_{c 1}}-\overline{x_{c 2}}\right)^{T} w}{w^{T}\left(S_{1}+S_{2}\right) w} \\ &=\underset{w}{\operatorname{argmax}} \frac{w^{T} S_{b} w}{w^{T} S_{w} w} \end{aligned}\tag{2-54}$

这里 $S_b$ 成为类间方差， $S_w$ 成为类内方差。

对公式2-54求梯度，令梯度等于零可得： $\begin{array}{l}\frac{\partial \frac{w^{T} S_{b} w}{w^{T} S_{w} w}}{\partial w} =2 S_{b} w\left(w^{T} S_{w} w\right)^{-1}-2 w^{T} S_{b} w\left(w^{T} S_{w} w\right)^{-2} S_{w} w=0 \\ \Longrightarrow S_{b} w\left(w^{T} S_{w} w\right)=\left(w^{T} S_{b} w\right) S_{w} w \\ \Longrightarrow w \propto S_{w}^{-1} S_{b} w=S_{w}^{-1}\left(\overline{x_{c 1}}-\overline{x_{c 2}}\right)\left(\overline{x_{c 1}}-\overline{x_{c 2}}\right)^{T} w \propto S_{w}^{-1}\left(\overline{x_{c 1}}-\overline{x_{c 2}}\right)\end{array}\tag{2-55}$