保姆级讲解｜逻辑回归（LR）与最大熵模型

最新推荐文章于 2022-04-10 21:12:12 发布

苏学算法

最新推荐文章于 2022-04-10 21:12:12 发布

阅读量289

点赞数 1

分类专栏：机器学习文章标签：线性代数概率论机器学习

本文链接：https://blog.csdn.net/weixin_41888257/article/details/120639395

版权

机器学习专栏收录该内容

69 篇文章 22 订阅

订阅专栏

本文是笔者初学时的推导笔记，极其详细，可谓“保姆级”详细推导，看不懂的来打我好吧 🐶 🐶 🐶
另外，觉得前面在讲废话到可以直接跳到第三章🐶 🐶 🐶

之前的一篇文章交叉熵损失(Cross-entropy)和平方损失(MSE)究竟有何区别？，其中就涉及到逻辑回归，那么今天，我就把逻辑回归掰开了揉碎了再讲一遍

本篇公式过多，导致编辑器直接卡死好几次，来个三连一点都不过分好吧 🐶 🐶 🐶

为了引出逻辑回归，先从最简单的线性回归开始讲起…

一、直观理解

1.1 最小二乘法的回顾

设 $\left\{\left(x_{k}, y_{k}\right)\right\}_{k=1}^{N}$ 有N个点，如下图所示，用一条直线来拟合，该直线称为最小二乘拟合曲线。
在这里插入图片描述

曲线
$y = A x + B$
的系数是下列线性方程的解，这些方程称为正规方程

$\begin{aligned} \left(\sum_{k=1}^{N} x_{k}^{2}\right) A+\left(\sum_{k=1}^{N} x_{k}\right) \mathrm{B}=\sum_{k=1}^{N} x_{k} y_{k} \end{aligned}$ $\begin{aligned} \left(\sum_{k=1}^{N} x_{k}\right) A+N B=\sum_{\mathrm{k}=1}^{\mathrm{N}} y_{k} \end{aligned}$

证明:

对于直线 $y = A x + B$ ，点 $x_{k}, y_{k})$ 到线上的点 $\left(x_{k}, A_{k}+\mathrm{B}\right)$ 的垂直距离为：
$\begin{aligned} d_{k}=\left|A_{k}+B-y_{k}\right| \end{aligned}$
如上图所示，需要使垂直距离的平方和
$E(A,B)=\sum_{k=1}^{N}\left(A_{k}+B-y_{k}\right)^{2}=\sum_{k=1}^{N} d_{k}^{2}$
最小化。

通过偏导数 $\frac{\partial E}{\partial A}$ 和 $\frac{\partial E}{\partial B}$ 为0，可以得到 $E (A, B)$ 的最小值，并且可以求出拟合曲线的2个参数 $A$ 和 $B$ 。主要此时 $\left\{x_{k}\right\}$ 和 $\left\{y_{k}\right\}$ 是常量，而 $A$ 和 $B$ 是变量。首先，固定 $B$ ，对 $A$ 求导可得
$\begin{aligned} \frac{\partial E(A, B)}{\partial A} &=\sum_{k=1}^{N} 2\left(A x_{k}+B-y_{k}\right)\left(x_{k}\right) \\ &=2 \sum_{k=1}^{N}\left(A x_{k}^{2}+B x_{k}-x_{k} y_{k}\right) \\ &=2 \sum_{k=1}^{N} A x_{k}^{2}+2 \sum_{k=1}^{N} B x_{k}-2 \sum_{k=1}^{N} x_{k} y_{k} \\ &=0 \end{aligned}$
而后固定 $A$ ， $E (A, B)$ 对 $B$ 求导可得
$\begin{aligned} \frac{\partial E(A, B)}{\partial B} &=\sum_{k=1}^{N} 2\left(A x_{k}+B-y_{k}\right) \\ &=2 \sum_{k=1}^{N}\left(A x_{k}+B-y_{k}\right) \\ &=0 \end{aligned}$

以上即最小二乘法的推导

$\begin{aligned} E(A,B)&=\sum_{k=1}^{N}\left(A_{k}+B-y_{k}\right)^{2} \\ &=\sum_{k=1}^{N} d_{k}^{2} \end{aligned}$

二、线性回归（Linear Regression)

2.1 基本形式

【符号说明】：在李航《统计学方法》中， $\boldsymbol{w}$ 和 $\boldsymbol{x}$ 等向量没有加粗体，为了便于识别，本文中对向量一律加上粗体表示。 $\boldsymbol{w} \cdot \boldsymbol{x}$ 表示内积，其实更加准确的表达应该是 $\boldsymbol{w}^T \cdot \boldsymbol{x}$ 。

另外，在李航《统计学方法》中， $N$ 表示样本数, $n$ 表示特征维度；而周志华《机器学习》以及吴恩达《机器学习》中， $m$ 表示样本数, $d$ 表示特征维度。如果符号混乱，注意区分。

类比第一章中所提及的最小二乘拟合法。有 $d$ 个特征维度的样本（示例）
$\begin{aligned} \boldsymbol{x}=\left(x_{1} ; x_{1} ; x_{1} \ldots, x_{d}\right) \end{aligned}$
其中 $x_i$ 是第 $i$ 个属性(特征)的取值，其中粗体 $\boldsymbol{x}$ 表示向量，分号表示换行符。向量默认是纵向排列的。

线性模型(Linear Model)试图学得一个通过线性组合来预测对函数，即
$\begin{aligned} f(\boldsymbol{x})=w_{1} x_{1}+w_{2} x_{1}+\cdots+w_{d} x_{d}+b \end{aligned}$

一般向量表示为
$\begin{aligned} f(\boldsymbol{x}) &=\left[\begin{array}{c}{w_{1}} \\ {w_{2}} \\ {\vdots} \\ {w_{d}}\end{array}\right]^{T}\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{d}}\end{array}\right]+\mathrm{b} =\boldsymbol{w}^{T} \boldsymbol{x}+b \end{aligned}$
其中权重参数 $\boldsymbol{w}$ 和偏置参数 $b$ ，在学习模型的过程中确定。

权重参数的具体数值解释了这些权重在解释模型时的重要性，权重 $w_i$ 越大，则表示特征 $w_i$ 对重要性越大。

2.2 线性回归(Linear Regression)（回归模型）

给定数据集
$\begin{aligned} D &=\left\{\left({\boldsymbol{x}}_{1}, y_{1}\right),\left({\boldsymbol{x}}_{2}, y_{2}\right), \ldots\left({\boldsymbol{x}}_{m}, y_{m}\right)\right\} \\ &=\left\{\left(\left[\begin{array}{c}{{x}_{11}} \\ {{x}_{12}} \\ {\vdots} \\ {{x}_{1 d}}\end{array}\right], y_{1}\right),\left(\left[\begin{array}{c}{{x}_{21}} \\ {{x}_{22}} \\ {\vdots} \\ {{x}_{2 d}}\end{array}\right], {y}_{2}\right), \dots\left(\left[\begin{array}{c}{{x}_{m 1}} \\ {{x}_{m 2}} \\ {\vdots} \\ {{x}_{m d}}\end{array}\right], y_{m}\right)\right\} \end{aligned}$

其中样本数为 $m$ ，每个样本有 $d$ 维特征。 $y_{i} \in \mathbb{R}$ 。线性回归(Linear Regression)将学习一个线性模型，以尽可能准确得预测出实值输出标记。

2.2.1 单变量线性回归(Linear Regression with one Variable)

先考虑最简单的模型，特征属性个数为1，即 $d = 1$ 。此时粗体的 $\boldsymbol{x}$ 只有一维，为了表示方便，就不用粗体了。即
$D=\left\{\left({\boldsymbol{x}}_{1}, y_{1}\right),\left({\boldsymbol{x}}_{2}, y_{2}\right), \ldots\left({\boldsymbol{x}}_{m}, y_{m}\right)\right\}=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots\left(x_{m}, y_{m}\right)\right\}$

其中 $x_{i} \in \mathbb{R}$ 。

对于离散型的属性(特征)

如果存在"序"(order)关系，可以通过连续化将其转化为连续值。例如升高的高、矮可转化为 ${1.0,0.0\}$ ，三值属性如高、中、低，可转化为 ${1.0,0.5,0.0\}$ 。
若属性间不存在"序"关系，假定有k个属性值，则通常可转化为k维one-hot向量。例如属性（特征）"瓜类"的取值为西瓜、南瓜、黄瓜，可转化为 $(0, 0, 1), (0, 1, 0), (0, 0, 1)$ 。

线性回归试图学得
$\begin{aligned} f\left(x_{i}\right)=\omega x_{i}+b \end{aligned}$ 使得 $\begin{aligned} f\left(x_{i}\right) \approx y_{i} \end{aligned}$
选择最佳的 $\omega$ 和 $b$ 的关键是使得 $f(x_i)$ 和 $y_i$ 之间的距离最小。对于回归任务，均方差(平方损失 square loss)是回归任务最常用的性能度量。模型最优即表示均方误差最小。即
$\begin{aligned} \left(\omega^{*}, b^{*}\right) &=\underset{(\omega, b)}{\arg \min } \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2} \\ &=\underset{(\omega, b)}{\arg \min } \sum_{i=1}^{m}\left(y_{i}-\omega x_{i}-b\right)^{2} \end{aligned}$
其中 $\omega^*$ 和 $b^*$ 分别表示中 $\omega$ 和 $b$ 的近似解。

均方误差有很好的几何意义，它描述了欧式距离(Euclidean distance)。基于均方误差最小化来求模型的解的方法称之为"最小二乘法"(least square method)。在线性回归中，最小二乘法就是试图找一条直线，使得所有样本到直线上的欧式距离之和最小。如第一章所示。

求解 $\omega^*$ 和 $b^*$ 使得 $E_{(\omega, b)}=\sum_{i=1}^{m}\left(y_{i}-\omega x_{i}-b\right)^{2}$ 最小化的过程，称为线性回归模型的最小二乘"参数估计"(parameter estimation)。类比第一章的推导，可以将 $E_{(\omega, b)}$ 分别对 $\omega^*$ 和 $b^*$ 求导，可得
$\begin{aligned} \frac{\partial E_{(w, b)}}{\partial w}&=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right)\\ \end{aligned}$
$\begin{aligned} \frac{\partial E_{(w, b)}}{\partial b}&=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right) \end{aligned}$
而后令上面两式为0，可得 $w$ 和 $b$ 的最优解的闭式(closed-form)解
$\begin{aligned} w=\frac{\sum_{i=1}^{m} y_{i}\left(x_{i}-\overline{x}\right)}{\sum_{i=1}^{m} x_{i}^{2}-\frac{1}{m}\left(\sum_{i=1}^{m} x_{i}\right)^{2}} \end{aligned}$
$\begin{aligned} b=\frac{1}{m} \sum_{i=1}^{m}\left(y_{i}-w x_{i}\right) \end{aligned}$
其中 $\overline{x}=\frac{1}{m} \sum_{i=1}^{m} x_{i}$ 为 $x$ 的均值。

证明:

这里的 $E_{(w, b)}$ 是关于 $w$ 和 $b$ 的凸函数。关于凸函数的内容可参考《凸优化》一书，在此不再赘述。

令 $\frac{\partial E_{(w, b)}}{\partial w}$ 等于0
$w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i=0$
$w\sum_{i=1}^{m}x_i^2 = \sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}bx_i$

令 $\frac{\partial E_{(w, b)}}{\partial b}$ 等于0，可得 $b=\cfrac{1}{m}\sum_{i=1}^{m}(y_i-wx_i)$

又 $\cfrac{1}{m}\sum_{i=1}^{m}y_i=\bar{y}$ , $\cfrac{1}{m}\sum_{i=1}^{m}x_i=\bar{x}$
则 $b=\bar{y}-w\bar{x}$ 代入上式可得
$\begin{aligned} w\sum_{i=1}^{m}x_i^2 & = \sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}(\bar{y}-w\bar{x})x_i \\ w\sum_{i=1}^{m}x_i^2 & = \sum_{i=1}^{m}y_ix_i-\bar{y}\sum_{i=1}^{m}x_i+w\bar{x}\sum_{i=1}^{m}x_i \\ w(\sum_{i=1}^{m}x_i^2-\bar{x}\sum_{i=1}^{m}x_i) & = \sum_{i=1}^{m}y_ix_i-\bar{y}\sum_{i=1}^{m}x_i \\ w & = \cfrac{\sum_{i=1}^{m}y_ix_i-\bar{y}\sum_{i=1}^{m}x_i}{\sum_{i=1}^{m}x_i^2-\bar{x}\sum_{i=1}^{m}x_i} \end{aligned}$
又
$\bar{y}\sum_{i=1}^{m}x_i=\cfrac{1}{m}\sum_{i=1}^{m}y_i\sum_{i=1}^{m}x_i=\bar{x}\sum_{i=1}^{m}y_i$
$\bar{x}\sum_{i=1}^{m}x_i=\cfrac{1}{m}\sum_{i=1}^{m}x_i\sum_{i=1}^{m}x_i=\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2$
代入上式可得
$w=\cfrac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2}$
【注】

上式还可以进一步简化为能够用向量表达的形式，将
$\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2=\bar{x}\sum_{i=1}^{m}x_i$
代入分母可得
$\begin{aligned} w & = \cfrac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\bar{x}\sum_{i=1}^{m}x_i} \\ & = \cfrac{\sum_{i=1}^{m}(y_ix_i-y_i\bar{x})}{\sum_{i=1}^{m}(x_i^2-x_i\bar{x})} \end{aligned}$
又因为 $\bar{y}\sum_{i=1}^{m}x_i=\bar{x}\sum_{i=1}^{m}y_i=\sum_{i=1}^{m}\bar{y}x_i=\sum_{i=1}^{m}\bar{x}y_i=m\bar{x}\bar{y}=\sum_{i=1}^{m}\bar{x}\bar{y}$

$\sum_{i=1}^{m}x_i\bar{x}=\bar{x}\sum_{i=1}^{m}x_i=\bar{x}\cdot m \cdot\frac{1}{m}\cdot\sum_{i=1}^{m}x_i=m\bar{x}^2=\sum_{i=1}^{m}\bar{x}^2$
则上式可化为：
$\begin{aligned} w & = \cfrac{\sum_{i=1}^{m}(y_ix_i-y_i\bar{x}-x_i\bar{y}+\bar{x}\bar{y})}{\sum_{i=1}^{m}(x_i^2-x_i\bar{x}-x_i\bar{x}+\bar{x}^2)} \\ & = \cfrac{\sum_{i=1}^{m}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{m}(x_i-\bar{x})^2} \end{aligned}$
若令
$\boldsymbol{x}=(x_1,x_2,...,x_m)^T$
$\boldsymbol{x}_{d}=(x_1-\bar{x},x_2-\bar{x},...,x_m-\bar{x})^T$
为去均值后的 $\boldsymbol{x}$

$\boldsymbol{y}=(y_1,y_2,...,y_m)^T$
$\boldsymbol{y}_{d}=(y_1-\bar{y},y_2-\bar{y},...,y_m-\bar{y})^T$
为去均值之后的 $\boldsymbol{y}$
其中 $\boldsymbol{x}$ 、 $\boldsymbol{x_d}$ 、 $\boldsymbol{y}$ 、 $\boldsymbol{y_d}$ 均为m行1列的列向量。代入上式可得
$w=\cfrac{\boldsymbol{x}_{d}^T\boldsymbol{y}_{d}}{\boldsymbol{x}_d^T\boldsymbol{x}_{d}}$

2.2.2 多变量线性回归(Linear Regression with Multiple Variable)

接下来考虑更一般的情况，如本节开头的数据集 $D$ ，样本由 $d$ 个属性(特征)描述,
其中， $\boldsymbol{w}=\left[\begin{array}{c}{w_{1}} \\ {w_{2}} \\ {\vdots} \\ {w_d} \end{array}\right]$ , 此时试图学得
$\begin{aligned} f\left(\boldsymbol{x}_{i}\right)&=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \\ &=\left[\begin{array}{llll}{w_{1}} & {w_{2}} & {\dots} & {w_{d}}\end{array}\right]\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{d}}\end{array}\right]+b \\ &=w_{1} x_{1}+w_{2} x_{2}+\cdots+w_{d} x_{d}+b \end{aligned}$

使得：
$f\left(\boldsymbol{x}_{i}\right) \simeq y_{i}$ 这称为"多元线性回归"(multivariable linear regression)。

类似的，可利用最小二乘对 $\boldsymbol{w}$ 和 $b$ 进行估计。为便于讨论，将 $\boldsymbol{w}$ 和 $b$ 合成向量形式
$\widehat{\boldsymbol{w}}=\left[\begin{array}{c}{\boldsymbol{w}} \\ {b}\end{array}\right] =\left[\begin{array}{c}{w_{1}} \\ {w_{2}} \\ {\vdots} \\ {w_d} \\ {b}\end{array}\right]$
相应的，把数据集 $D$ 表示成一个 $\times(d+1)$ 大小的矩阵 $\mathbf{X}$ ，其中样本个数为 $m$ ，特征(属性)个数为 $d$ ，其中每一行对应一个样本(示例)，每行的前 $d$ 个元素为该样本的 $d$ 个特征，最后一个元素恒置为1，即
$\mathbf{X}=\left(\begin{array}{ccccc}{x_{11}} & {x_{12}} & {\dots} & {x_{1 d}} & {1} \\ {x_{21}} & {x_{22}} & {\dots} & {x_{2 d}} & {1} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} & {\vdots} \\ {x_{m 1}} & {x_{m 2}} & {\dots} & {x_{m d}} & {1}\end{array}\right)=\left(\begin{array}{cc}{\boldsymbol{x}_{1}^{\mathrm{T}}} & {1} \\ {\boldsymbol{x}_{2}^{\mathrm{T}}} & {1} \\ {\vdots} & {\vdots} \\ {\boldsymbol{x}_{m}^{\mathrm{T}}} & {1}\end{array}\right)$
再把标签也改成向量形式
$\boldsymbol{y}=\left[\begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{m}}\end{array}\right]$
类似于单变量的线性回归，有
$\begin{aligned} \hat{\boldsymbol{w}}^{*}=\underset{\hat{\boldsymbol{w}}}{\arg \min }(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}}) \end{aligned}$
其中 $\boldsymbol{w}^{*}$ 表示 $\boldsymbol{w}$ 的解。令 $E_{\hat{\boldsymbol{w}}}=(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})$ ，因为
$\begin{aligned} (\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}}) &=\left[\begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{m}}\end{array}\right]-\left[\begin{array}{ccccc}{x_{11}} & {x_{12}} & {} & {x_{1 d}} & {1} \\ {x_{21}} & {x_{22}} & {} & {x_{2 d}} & {1} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {x_{m 1}} & {x_{m 2}} & {\cdots} & {x_{m d}} & {1}\end{array}\right]\left[\begin{array}{c}{w_{1}} \\ {w_{2}} \\ {\vdots} \\ {w_{d}} \\ {b}\end{array}\right] \\ &=\left[\begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{m}}\end{array}\right]-\left[\begin{array}{c}{w_{1} x_{11}+w_{2} x_{12}+\cdots+w_{d} x_{1 d}+b} \\ {w_{1} x_{21}+w_{2} x_{22}+\cdots+w_{d} x_{2 d}+b} \\ {\vdots} \\ {w_{1} x_{m 1}+w_{2} x_{m 2}+\cdots+w_{d} x_{m d}+b}\end{array}\right] \\ &=\left[\begin{array}{c}{y_{1}-f\left(\boldsymbol{x}_{1}\right)} \\ {y_{2}-f\left(\boldsymbol{x}_{2}\right)} \\ {\vdots} \\ {y_{m}-f\left(\boldsymbol{x}_{\boldsymbol{m}}\right)}\end{array}\right] \end{aligned}$
所以
$\begin{aligned} (\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}}) &=\left[y_{1}-f\left(\boldsymbol{x}_{\mathbf{1}}\right) \quad y_{2}-f\left(\boldsymbol{x}_{2}\right) \quad \ldots \quad y_{m}-f\left(\boldsymbol{x}_{\boldsymbol{m}}\right)\right]\left[\begin{array}{c}{y_{1}-f\left(\boldsymbol{x}_{1}\right)} \\ {y_{2}-f\left(\boldsymbol{x}_{2}\right)} \\ {\vdots} \\ {y_{m}-f\left(\boldsymbol{x}_{\boldsymbol{m}}\right)}\end{array}\right] \\ &=\left(y_{1}-f\left(\boldsymbol{x}_{\mathbf{1}}\right)\right)^{2}+\left(y_{2}-f\left(\boldsymbol{x}_{2}\right)\right)^{2}+\cdots+\left(y_{m}-f\left(\boldsymbol{x}_{\boldsymbol{m}}\right)\right)^{2} \end{aligned}$
可见， $E_{\hat{\boldsymbol{w}}}=(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})$ 表示的也是最小二乘的概念。

$E_{\hat{\boldsymbol{w}}}$ 对 $\hat{\boldsymbol{w}}$ 求导可得
$\begin{aligned} \frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}}=2 \mathbf{X}^{\mathrm{T}}(\mathbf{X} \hat{\boldsymbol{w}}-\boldsymbol{y}) \end{aligned}$

证明:
$\begin{aligned} E_{\hat{w}} &=(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{T}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}}) \\ &=\boldsymbol{y}^{T} \boldsymbol{y}-\boldsymbol{y}^{T} \mathbf{X} \hat{\boldsymbol{w}}-\hat{\boldsymbol{w}}^{T} \mathbf{X}^{T} \boldsymbol{y}+\hat{\boldsymbol{w}}^{T} \mathbf{X}^{T} \mathbf{X} \hat{\boldsymbol{w}} \end{aligned}$
对 $\hat{\boldsymbol{w}}$ 求导可得
$\begin{aligned} \frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}} &=\frac{\partial \boldsymbol{y}^{T} \boldsymbol{y}}{\partial \hat{\boldsymbol{w}}}-\frac{\partial \boldsymbol{y}^{T} \mathbf{X} \hat{\boldsymbol{w}}}{\partial \hat{\boldsymbol{w}}}-\frac{\partial \hat{\boldsymbol{w}}^{T} \mathbf{X}^{T} \boldsymbol{y}}{\partial \hat{\boldsymbol{w}}}+\frac{\partial \hat{\boldsymbol{w}}^{T} \mathbf{X}^{T} \mathbf{X} \hat{\boldsymbol{w}}}{\partial \hat{\boldsymbol{w}}} \\ &=0-\mathbf{X}^{T} \boldsymbol{y}-\mathbf{X}^{T} \boldsymbol{y}+\left(\mathbf{X}^{T} \mathbf{X}+\mathbf{X}^{T} \mathbf{X}\right) \hat{\boldsymbol{w}} \\ &=2 \mathbf{X}^{T}(\mathbf{X} \hat{\boldsymbol{w}}-\boldsymbol{y}) \end{aligned}$
由此即得证。

2.2.3 关于向量求导补充证明

实值函数相对于实向量求偏导

关于向量求导的详细说明可参考张贤达《矩阵分析与应用》一书。

符号说明：向量默认为纵向排列的列向量

1、[实值对列向量求偏导]

相对于 $n\times 1$ 向量 $\boldsymbol{x}=\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{n}}\end{array}\right]$ 的梯度算子记作 $\nabla_{x}$ ，定义为 $\begin{aligned} \nabla_{x} \stackrel{\mathrm{def}}{=}\left[\begin{array}{c}{\frac{\partial}{\partial x_{1}}} \\ {\frac{\partial}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial}{\partial x_{n}}}\end{array}\right]=\frac{\partial}{\partial \boldsymbol{x}} \end{aligned}$
因此，以 $n\times 1$ 实向量 $\boldsymbol{x}$ 为变元的实标量函数 $f(\boldsymbol{x})$ 相对于 $\boldsymbol{x}$ 的梯度为一个以 $n\times 1$ 列向量，定义为
$\begin{aligned} \nabla_{\boldsymbol{x}} f(\boldsymbol{x}) \stackrel{\mathrm{def}}{=}\left[\begin{array}{c}{\frac{\partial f(\boldsymbol{x})}{\partial x_{1}}} \\ {\frac{\partial f(\boldsymbol{x})}{\partial x_{2}}} \\ {\vdots} \\ {\frac{\partial f(\boldsymbol{x})}{\partial x_{n}}}\end{array}\right]=\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}} \end{aligned}$
梯度方向的负方向称为变元 $x$ 的梯度流(gradient flow)，记作
$\dot{\boldsymbol{x}}=-\nabla_{\boldsymbol{x}} f(\boldsymbol{x})$
从梯度的定义可以看出

一个以向量为变元的标量函数的梯度为一向量。
梯度的每个分量给出了标量函数在该分量上的变化率。

2、 [实值对行向量求偏导]

实值函数 $f(\boldsymbol{x})$ 相对于 $1\times n$ 行向量 $\boldsymbol{x}^{\mathrm{T}}=\left[x_{1}, x_{2} \cdots x_{n}\right]$ 的梯度为 $1\times n$ 行向量，定义为
$\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}^{\mathrm{T}}} \stackrel{\mathrm{def}}{=}\left[\frac{\partial f(\boldsymbol{x})}{\partial x_{1}}, \frac{\partial f(\boldsymbol{x})}{\partial x_{2}}, \cdots, \frac{\partial f(\boldsymbol{x})}{\partial x_{n}}\right]=\nabla_{\boldsymbol{x}^{\mathrm{T}}} f(\boldsymbol{x})$

3、 [行向量对列向量求偏导]

$m$ 维行向量 $\boldsymbol{f}(\boldsymbol{x})=\left[f_{1}(\boldsymbol{x}), f_{2}(\boldsymbol{x}), \cdots, f_{m}(\boldsymbol{x})\right]$ 相对于 $n$ 维实列向量 $\boldsymbol{x}$ 的梯度为一个 $n\times m$ 的矩阵，定义为 $\begin{aligned} \frac{\partial \boldsymbol{f}(\boldsymbol{x})}{\partial \boldsymbol{x}} \stackrel{\mathrm{def}}{=}\left[\begin{array}{cccc}{\frac{\partial f_{1}(\boldsymbol{x})}{\partial x_{1}}} & {\frac{\partial f_{2}(\boldsymbol{x})}{\partial x_{1}}} & {\dots} & {\frac{\partial f_{m}(\boldsymbol{x})}{\partial x_{1}}} \\ {\frac{\partial f_{2}(\boldsymbol{x})}{\partial x_{2}}} & {\frac{\partial f_{2}(\boldsymbol{x})}{\partial x_{2}}} & {\cdots} & {\frac{\partial f_{m}(\boldsymbol{x})}{\partial x_{2}}} \\ {\vdots} & {\vdots} & {} & {\vdots} \\ {\frac{\partial f_{1}(\boldsymbol{x})}{\partial x_{n}}} & {\frac{\partial f_{2}(\boldsymbol{x})}{\partial x_{n}}} & {\cdots} & {\frac{\partial f_{m}(\boldsymbol{x})}{\partial x_{n}}}\end{array}\right]=\nabla_{\boldsymbol{x}} \boldsymbol{f}(\boldsymbol{x}) \end{aligned}$
若
$\boldsymbol{f}(\boldsymbol{x}) =\left[y_{1}, y_{2}, \cdots, y_{n}\right] =\left[x_{1}, x_{2}, \cdots, x_{n}\right] =\boldsymbol{x}^{\mathbf{T}}$
则
$\begin{aligned} \frac{\partial \boldsymbol{x}^{\mathbf{T}}}{\partial \boldsymbol{x}}=\boldsymbol{I} \end{aligned}$
式中， $I$ 为单位矩阵。这是一个非常有用的结果。

4、 [列向量对行向量求偏导]

若 $m\times1$ 向量函数
$f(x)=\boldsymbol{y}=\left[\begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{m}}\end{array}\right]$
其中， $y_1,y_2,...y_m$ 是向量的标量函数。一阶梯度
$\begin{aligned} \frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}^{\mathrm{T}}}=\left[\begin{array}{cccc}{\frac{\partial y_{1}}{\partial x_{1}}} & {\frac{\partial y_{1}}{\partial x_{2}}} & {\cdots} & {\frac{\partial y_{1}}{\partial x_{n}}} \\ {\frac{\partial y_{2}}{\partial x_{1}}} & {\frac{\partial y_{2}}{\partial x_{2}}} & {\cdots} & {\frac{\partial y_{2}}{\partial x_{n}}} \\ {\vdots} & {\vdots} & {} & {\vdots} \\ {\frac{\partial y_{m}}{\partial x_{1}}} & {\frac{\partial y_{m}}{\partial x_{2}}} & {\cdots} & {\frac{\partial y_{m}}{\partial x_{n}}}\end{array}\right] \end{aligned}$
是一个 $m\times n$ 矩阵，称为向量函数 $f(x)=\boldsymbol{y}=\left[\begin{array}{c}{y_{1}} \\ {y_{2}} \\ {\vdots} \\ {y_{m}}\end{array}\right]$
的Jacobi(雅克比)矩阵 (列向量对行向量求偏导)

【几个重要推论】

1、若 $A$ 和 $y$ 均与向量 $x$ 无关，则
$\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{y}}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{x}^{\mathrm{T}}}{\partial \boldsymbol{x}} \boldsymbol{A} \boldsymbol{y}=\boldsymbol{A} \boldsymbol{y}$
【注】偏导符号 $\partial$ 要与紧跟在其后的 $\boldsymbol{x}^{\mathrm{T}}$ 连在一起，不可直接分开。

2.、由于
$\boldsymbol{y}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=\left\langle\boldsymbol{A}^{\mathrm{T}} \boldsymbol{y}, \boldsymbol{x}\right\rangle=\left\langle\boldsymbol{x}, \boldsymbol{A}^{\mathrm{T}} \boldsymbol{y}\right\rangle=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{y}$
所以
$\frac{\partial \boldsymbol{y}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{y}}{\partial \boldsymbol{x}}=\boldsymbol{A}^{\mathrm{T}} \boldsymbol{y}$

3、由于
$\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=\sum_{i=1}^{n} \sum_{j=1}^{n} A_{i j} x_{i} x_{j}$
所以可求出梯度 $\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}}$ 的第 $k$ 个分量为
$\left[\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}}\right]_{k}=\frac{\partial}{\partial \boldsymbol{x}_{k}} \sum_{i=1}^{n} \sum_{j=1}^{n} \boldsymbol{A}_{i j} x_{\boldsymbol{\imath}} x_{j}=\sum_{i=1}^{n} A_{i k} x_{i}+\sum_{j=1}^{n} A_{k j} x_{j}$
即有
$\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}}=\boldsymbol{A} \boldsymbol{x}+\boldsymbol{A}^{\mathrm{T}} \boldsymbol{x}$
特别得，若A为对称矩阵，则有
$\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}}=2 \boldsymbol{A x}$

以下对上述三个向量求导对结论再进行实例的细化证明，为了简单说明问题，对向量 $\boldsymbol{x}$ 、向量 $\boldsymbol{y}$ 以及矩阵 $\boldsymbol{A}$ 都简化成最简单的形式。

【实例说明】

证明推论 1)

其中
$\boldsymbol{x}=\left[\begin{array}{l}{x_{1}} \\ {x_{2}} \\ {x_{3}}\end{array}\right]$ ， $\boldsymbol{y}=\left[\begin{array}{l}{y_{1}} \\ {y_{2}} \\ {y_{3}}\end{array}\right]$
$\begin{aligned} &\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{y}=\left[\begin{array}{lll} x_{1} & x_{2} & x_{3} \end{array}\right]\left[\begin{array}{lll} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{array}\right]\left[\begin{array}{l} y_{1} \\ y_{2} \\ y_{3} \end{array}\right] \\ &=\left[\left(x_{1} a_{11}+x_{2} a_{21}+x_{3} a_{31}\right),\left(x_{1} a_{12}+x_{2} a_{22}+x_{3} a_{32}\right),\left(x_{1} a_{13}+x_{2} a_{23}+x_{3} a_{33}\right)\right]\left[\begin{array}{l} y_{1} \\ y_{2} \\ y_{3} \end{array}\right] \\ &=\left(y_{1}\left(x_{1} a_{11}+x_{2} a_{21}+x_{3} a_{31}\right)+y_{2}\left(x_{1} a_{12}+x_{2} a_{22}+x_{3} a_{32}\right)+y_{3}\left(x_{1} a_{13}+x_{2} a_{23}+x_{3} a_{33}\right)\right) \end{aligned}$

对每个分量求偏导可得

$\begin{aligned} \frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{y}}{\partial \boldsymbol{x}_{\mathbf{1}}}=\left(y_{1} a_{11}+y_{2} a_{12}+y_{3} a_{13}\right)=\left[\begin{array}{lll}{y_{1}} & {y_{2}} & {y_{3}}\end{array}\right]\left[\begin{array}{c}{a_{11}} \\ {a_{12}} \\ {a_{13}}\end{array}\right] \end{aligned}$
$\begin{aligned} \frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{y}}{\partial \boldsymbol{x}_{2}}=\left(y_{1} a_{21}+y_{2} a_{22}+y_{3} a_{23}\right)=\left[\begin{array}{lll}{y_{1}} & {y_{2}} & {y_{3}}\end{array}\right]\left[\begin{array}{c}{a_{21}} \\ {a_{22}} \\ {a_{23}}\end{array}\right] \end{aligned}$
$\begin{aligned} \frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{y}}{\partial \boldsymbol{x}_{3}}=\left(y_{1} a_{31}+y_{2} a_{32}+y_{3} a_{33}\right)=\left[\begin{array}{lll}{y_{1}} & {y_{2}} & {y_{3}}\end{array}\right]\left[\begin{array}{l}{a_{31}} \\ {a_{32}} \\ {a_{33}}\end{array}\right] \end{aligned}$

$\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{y}}{\partial \boldsymbol{x}}=\left[\begin{array}{c}{\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{y}}{\partial \boldsymbol{x}_{\mathbf{1}}}} \\ {\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{y}}{\partial \boldsymbol{x}_{2}}} \\ {\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{y}}{\partial \boldsymbol{x}_{3}}}\end{array}\right]=\left[\begin{array}{c}{y_{1} a_{11}+y_{2} a_{12}+y_{3} a_{13}} \\ {y_{1} a_{21}+y_{2} a_{22}+y_{3} a_{23}} \\ {y_{1} a_{31}+y_{2} a_{32}+y_{3} a_{33}}\end{array}\right]=\boldsymbol{A} \boldsymbol{y}$

证明推论 3)

其中
$\boldsymbol{x}=\left[\begin{array}{l}{x_{1}} \\ {x_{2}} \\ {x_{3}}\end{array}\right]$
$\begin{aligned} &\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=\left[\begin{array}{lll} x_{1} & x_{2} & x_{3} \end{array}\right]\left[\begin{array}{lll} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{array}\right]\left[\begin{array}{l} x_{1} \\ x_{2} \\ x_{3} \end{array}\right] \\ &=\left[\left(x_{1} a_{11}+x_{2} a_{21}+x_{3} a_{31}\right),\left(x_{1} a_{12}+x_{2} a_{22}+x_{3} a_{32}\right),\left(x_{1} a_{13}+x_{2} a_{23}+x_{3} a_{33}\right)\right]\left[\begin{array}{l} x_{1} \\ x_{2} \\ x_{3} \end{array}\right] \\ &=\left(x_{1}\left(x_{1} a_{11}+x_{2} a_{21}+x_{3} a_{31}\right)+x_{2}\left(x_{1} a_{12}+x_{2} a_{22}+x_{3} a_{32}\right)+x_{3}\left(x_{1} a_{13}+x_{2} a_{23}+x_{3} a_{33}\right)\right) \end{aligned}$

对每个分量求偏导可得

$\begin{aligned} \frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}_{\mathbf{1}}} &=\left(2 x_{1} a_{11}+x_{2} a_{21}+x_{3} a_{31}\right)+\left(x_{2} a_{12}+x_{3} a_{13}\right) \\ &=\left(x_{1} a_{11}+x_{2} a_{21}+x_{3} a_{31}\right)+\left(x_{1} a_{11}+x_{2} a_{12}+x_{3} a_{13}\right) \\ &=\left[\begin{array}{lll}{x_{1}} & {x_{2}} & {x_{3}}\end{array}\right]\left[\begin{array}{c}{a_{11}} \\ {a_{21}} \\ {a_{31}}\end{array}\right] +\left[\begin{array}{lll}{a_{11}} & {a_{12}} & {a_{13}}\end{array}\right] \left[\begin{array}{l}{x_{1}} \\ {x_{2}} \\ {x_{3}}\end{array}\right] \end{aligned}$
$\begin{aligned} \begin{aligned} \frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}_{2}} &=\left(x_{1} a_{12}+2 x_{2} a_{22}+x_{3} a_{32}\right)+\left(x_{1} a_{21}+x_{3} a_{23}\right) \\ &=\left(x_{1} a_{12}+x_{2} a_{22}+x_{3} a_{32}\right)+\left(x_{1} a_{21}+x_{2} a_{22}+x_{3} a_{23}\right) \\ &=\left[\begin{array}{lll}{x_{1}} & {x_{2}} & {x_{3}}\end{array}\right]\left[\begin{array}{c}{a_{12}} \\ {a_{22}} \\ {a_{32}}\end{array}\right]+\left[\begin{array}{lll}{a_{21}} & {a_{22}} & {a_{23}}\end{array}\right]\left[\begin{array}{l}{x_{1}} \\ {x_{2}} \\ {x_{3}}\end{array}\right] \end{aligned} \end{aligned}$
$\begin{aligned} \begin{aligned} \frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}_{\mathbf{3}}} &=\left(x_{1} a_{13}+x_{2} a_{23}+x_{3} a_{33}\right)+\left(x_{1} a_{31}+x_{2} a_{32}+x_{3} a_{33}\right) \\ &=\left[\begin{array}{lll}{x_{1}} & {x_{2}} & {x_{3}}\end{array}\right]\left[\begin{array}{c}{a_{13}} \\ {a_{23}} \\ {a_{33}}\end{array}\right]+\left[\begin{array}{lll}{a_{31}} & {a_{32}} & {a_{33}}\end{array}\right]\left[\begin{array}{l}{x_{1}} \\ {x_{2}} \\ {x_{3}}\end{array}\right] \end{aligned} \end{aligned}$
$\begin{aligned} \frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}} &=\left[\begin{array}{c}{\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}_{\mathbf{1}}}} \\ {\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}_{2}}} \\ {\frac{\partial \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}_{3}}}\end{array}\right] \\ &=\left[\begin{array}{l}{\left(x_{1} a_{11}+x_{2} a_{21}+x_{3} a_{31}\right)+\left(x_{1} a_{11}+x_{2} a_{12}+x_{3} a_{13}\right)} \\ {\left(x_{1} a_{12}+x_{2} a_{22}+x_{3} a_{32}\right)+\left(x_{1} a_{21}+x_{2} a_{22}+x_{3} a_{23}\right)} \\ {\left(x_{1} a_{13}+x_{2} a_{23}+x_{3} a_{33}\right)+\left(x_{1} a_{31}+x_{2} a_{32}+x_{3} a_{33}\right)}\end{array}\right] \\ &=\left[\begin{array}{l}{\left(x_{1} a_{11}+x_{2} a_{12}+x_{3} a_{13}\right)} \\ {\left(x_{1} a_{21}+x_{2} a_{22}+x_{3} a_{23}\right)} \\ {\left(x_{1} a_{31}+x_{2} a_{32}+x_{3} a_{33}\right)}\end{array}\right]+\left[\begin{array}{c}{\left(x_{1} a_{11}+x_{2} a_{21}+x_{3} a_{31}\right)} \\ {\left(x_{1} a_{12}+x_{2} a_{22}+x_{3} a_{32}\right)} \\ {\left(x_{1} a_{13}+x_{2} a_{23}+x_{3} a_{33}\right)}\end{array}\right] \\ &=\boldsymbol{A} \boldsymbol{x}+\boldsymbol{A} \boldsymbol{x}^{\mathrm{T}} \end{aligned}$

现在回到式
$\frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}}=2 \mathbf{X}^{\mathrm{T}}(\mathbf{X} \hat{\boldsymbol{w}}-\boldsymbol{y})$
令上式为零即可得到 $\hat{\boldsymbol{w}}$ 的最优解的闭式解。以下进行分类讨论。

【注】 关于闭式解

闭式解closed form solution）也叫解析解(analytical solution)，就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题。所谓的解析解是一种包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。用来求得解析解的方法称为解析法〈analytic techniques〉，解析法即是常见的微积分技巧，例如分离变量法等。

解析解为一封闭形式〈closed-form〉的函数，因此对任一独立变量，我们皆可将其带入解析函数求得正确的相应变量。

例如一元二次方程的求解公式为 $\frac{-b \pm \sqrt{b^{2}-4 a c}}{2 a}$

1、当 $\mathbf{X}^{\mathrm{T}} \mathbf{X}$ 为满秩矩阵(fuul-rank matrix)或者正定矩阵(positive definite matrix)时，令上式为零可得
$\boldsymbol{\hat { w }}^{*}=\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y}$
其中 $\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1}$ 是矩阵 $\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)$ 的逆矩阵，令 $\hat{\boldsymbol{x}}_{i} =\left[\begin{array}{c}{x_{i 1}} \\ {x_{i 2}} \\ {\vdots} \\ {x_{i d}} \\ {1}\end{array}\right]$ 则最终学到的多元回归模型为
$\begin{aligned} f\left(\hat{\boldsymbol{x}}_{i}\right) &=\left[\begin{array}{llllll}{x_{i 1}} & {x_{i 2}} & {\dots} & {x_{i d}} & {1}\end{array}\right]\left[\begin{array}{c}{w_{1}^{*}} \\ {w_{2}^{*}} \\ {\vdots} \\ {w_{d}^{*}} \\ {b}\end{array}\right] \\ &=\left[\begin{array}{lllll}{x_{i 1}} & {x_{i 2}} & {\dots} & {x_{i d}} & {1}\end{array}\right]\boldsymbol{\hat { w }}^{*} \\ &=\hat{\boldsymbol{x}}_{i}^{\mathrm{T}}\hat{\boldsymbol{w}}^{*} \\ &=\hat{\boldsymbol{x}}_{i}^{\mathrm{T}}\left(\mathbf{X}^{\mathrm{T}} \mathbf{X}\right)^{-1} \mathbf{X}^{\mathrm{T}} \boldsymbol{y} \end{aligned}$

2、然而真实世界往往 $\mathbf{X}^{\mathrm{T}} \mathbf{X}$ 不为满秩，当样本的特征数大于样本数，即 $\mathbf{X}$ 的列数大于行数，则 $\mathbf{X}^{\mathrm{T}} \mathbf{X}$ 显然不满秩。由此可由多个 $\hat{\boldsymbol{w}}$ 解，都能够使得均方差误差最小化。(类比：解线性方程时，未知数个数多于方程的个数时，会有多个解)

故而，选择哪一个解作为输出，则还需要另外一个约束，常见做法是正则化(regularization)

可以对线性回归模型
$y=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$
进行尺度上的变化，如在指数尺度上变化
$\ln y=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$
这是"对数线性回归"(log-linear regression),它实际上是试图让 $e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}$ 逼近 $y$ 。上式在形式上仍然是线性回归，但是实际上已经在求取输入空间到输出空间的非线性函数映射。

更一般地，考虑单调可微函数 $g(\cdot)$ ，其中 $g(\cdot)$ 连续且充分光滑，令
$y=g^{-1}\left(\boldsymbol{w}^{T} \boldsymbol{x}+b\right)$

这样得到的模型称为"广义线性模型"(geberalized linear model)，其中函数 $g(\cdot)$ 称为"联系函数"(link function)。显然，对数线性回归是广义线性回归在 $g(\cdot)=\ln (\cdot)$ 时的特例。

广义线性模型的参数估计通常通过加权最小二乘法或者极大似然法进行。

2.2.4 线性回归与逻辑回归的关系

1.在线性回归中，是用预测的直线 $f(x_i)=wx_{i}+b$ 来拟合真实的 $y$ 值，而后用两者之间的平方损失来度量其拟合的效果，具体的是用平方损失函数来表示。而后通过求出这个损失函数的极小值来确定最优的参数 $w$ 和 $b$ 。

2.如果数据不是直线分布的，那么类比数据拟合中，把坐标做一下倒数、取对数等等处理，就可以拟合非线性的曲线。因为直线的拟合效果更容易度量。

上面提到，对纵坐标进行尺度上的变化，如在指数尺度上变化
$\ln y=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$
这是"对数线性回归"(log-linear regression),它实际上是试图让 $e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}$ (其实本质就是 $e^x$ ， $w$ 和 $b$ 不过是对 $x$ 做一些尺寸缩放和平移而已)逼近 $y$ 。上式在形式上仍然是线性回归，但是实际上已经在求取输入空间到输出空间的非线性函数映射。如下图所示：
在这里插入图片描述
在图中，原本的数据 $x_i,y_i)$ 是大致呈指数分布的，即图中的黑色曲线(上方的曲线)，而后对 $y_i$ 取对数以后，即 $y_i'=\ln y_i$ ，即图中的红色直线(下方的曲线)。

3.线性回归是"回归"问题，而后面提到的逻辑回归是"分类"问题。 为了使得回归问题能够变成二分类问题， $z = w x + b$ ,需要把 $\in(-\infty,+\infty)$ 映射到 $\in(0,1)$ 。所以需要有一个类似于阶跃函数的图像，但是为了能够微分便于计算，所以有了 Sigmoid函数，即 $\sigma$ 函数，
$y=\frac{1}{1+e^{-z}}$

函数曲线如图所示。
在这里插入图片描述

4.上面的线性回归的图可以理解为用
$e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}$ 逼近 $y$ ,即
$y=e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b} \Rightarrow\ln y=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$
而逻辑回归的图可以理解为用
$\frac{1}{1+e^{-\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)}}$
逼近 $y$ ，即
$y=\frac{1}{1+e^{-\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)}} \Rightarrow\ln \frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$

2.3 线性回归的梯度下降算法

【说明】这里仅针对单变量线性回归的梯度下降算法，多变量的以此类推。

在线性回归中使用的损失函数是"平方损失函数"(quadratic loss function)。
$L(Y, f(X))=(Y-f(X))^{2}$ 即上面的提到的
$E_{(\omega, b)}=\sum_{i=1}^{m}\left(y_{i}-\omega x_{i}-b\right)^{2}$
但是在计算的时候，常常多出一个2，并且表示成平均损失的形式：
$\begin{aligned} Loss_{(\omega, b)}=E_{(\omega, b)}&=\frac{1}{2 m} \sum_{i=1}^{m}\left(f(x_i)-y_{i}\right)^{2} \\ &=\frac{1}{2 m} \sum_{i=1}^{m}\left(y_{i}-\omega x_{i}-b\right)^{2} \end{aligned}$

1.这里多出一个 $1 / 2$ 的系数仅仅是为了计算方便。

2.这里的平方损失函数 $Loss_{(\omega, b)}$ 是凸函数，直接可以求出解析解，即根据上面的求导为零，就可以求出唯一的极值点，当然也可以用梯度下降算法来求极值点。但是，在后面逻辑回归中，如果也用这个平方损失函数，就变成非凸函数，不能直接求出解析解，需要用其他方法。后面再详述。

以下计算损失函数对每个参数的偏导

拟合的曲线
$f\left(x_{i}\right)=w x_{i}+b$
损失函数
$b)=\frac{1}{2 m} \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2}$
对 $w$ 求偏导
$\begin{aligned} \frac{\partial L(w, b)}{\partial w} &=\frac{\partial}{\partial w} \frac{1}{2 m} \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2} \\ &=\frac{\partial}{\partial w} \frac{1}{2 m} \sum_{i=1}^{m}\left(w x_{i}+b-y_{i}\right)^{2} \\ &=\frac{1}{m} \sum_{i=1}^{m}\left(w x_{i}+b-y_{i}\right) x_{i} \\ &=\frac{1}{m} \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right) x_{i} \end{aligned}$
对 $b$ 求偏导
$\begin{aligned} \frac{\partial L(w, b)}{\partial b} &=\frac{\partial}{\partial b} \frac{1}{2 m} \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2} \\ &=\frac{\partial}{\partial b} \frac{1}{2 m} \sum_{i=1}^{m}\left(w x_{i}+b-y_{i}\right)^{2} \\ &=\frac{1}{m} \sum_{i=1}^{m}\left(w x_{i}+b-y_{i}\right) \\ &=\frac{1}{m} \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right) \end{aligned}$
所以梯度下降法：
$\begin{aligned} \textbf{Repeat} \Bigg\{ w : &=w-\alpha \frac{\partial L(w, b)}{\partial w} \\ &=w-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right) x_{i} \\ ~\\ b : &=b-\alpha \frac{\partial L(w, b)}{\partial b} \\ &=b-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right) \\ \Bigg\} \end{aligned}$

三、逻辑回归(Logistic Regression)与最大熵模型

逻辑回归(logistic regression)是统计学习方法中的经典分类方法，最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型(maximum entropy model)。逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。

3.1 逻辑回归模型（分类模型）

首先申明关于logistic regression
一词的称谓。在周志华西瓜书《机器学习》中称为"对数几率回归"，在李航《统计学方法》中称之为"逻辑斯蒂回归"。其他也有采用"逻辑回归"的说法。
虽然称之为"回归"，但是实际上是一种分类方法。

3.1.1 逻辑斯蒂分布(logistic distribution)

定义(逻辑斯蒂分布)
设 $X$ 是连续随机变量， $X$ 服从逻辑斯蒂分布是指 $X$ 具有以下分布函数和密度函数：
$\leqslant x)=\frac{1}{1+e^{-(x-\mu) / \gamma}}$
$f(x)=F^{\prime}(x)=\frac{e^{-(x-\mu) / \gamma}}{\gamma\left(1+e^{-(x-\mu) / \gamma}\right)^{2}}$
式中， $\mu$ 为位置参数， $\gamma$ 为形状参数。

【注】

当 $\mu=0$ ， $\gamma=1$ ， $\leqslant x)=\frac{1}{1+e^{-x}}$
即常见的Sigmoid曲线。

逻辑斯蒂分布的密度函数 $f (x)$ 和分布函数 $F (x)$ 的图像如下图所示。分布函数属于逻辑斯蒂函数，即Sigmoid
curve。该曲线以点 $\left(\mu, \frac{1}{2}\right)$ 为中心对称，即
$F(-x+\mu)-\frac{1}{2}=-F(x-\mu)+\frac{1}{2}$
曲线在中心附近增长较快，两端增长慢。
形状参数 $\gamma$ 越小，曲线在中心附近增长越快。
在这里插入图片描述

3.1.2 二项逻辑斯蒂回归模型(binomial logistic regression model)

二项逻辑斯蒂回归模型是一种分类模型，由条件概率 $P (Y ∣ X)$ 表示，形式为参数化的逻辑斯蒂分布。这里，随机变量 $X$ 取值为实数，随机变量 $Y$ 取值为1或者0.通过监督学习方法来估计模型参数

符合说明：在李航《统计学方法》中， $\boldsymbol{w}$ 和 $\boldsymbol{x}$ 等向量没有加粗体，为了便于识别，本文中对向量一律加上粗体表示。 $\boldsymbol{w} \cdot \boldsymbol{x}$ 表示内积，其实更加准确的表达应该是 $\boldsymbol{w}^T \cdot \boldsymbol{x}$ 。

另外，在李航《统计学方法》中， $N$ 表示样本数, $n$ 表示特征维度；而周志华《机器学习》以及吴恩达《机器学习》中， $m$ 表示样本数, $d$ 表示特征维度。如果符号混乱，注意区分。

定义(逻辑斯蒂回归模型) 二项逻辑斯蒂回归模型是入下的条件概率分布：
$\boldsymbol{x})= \frac{1}{1+e^{-(\boldsymbol{w} \cdot \boldsymbol{x}+b)}} = \frac{e^{\boldsymbol{w} \cdot \boldsymbol{x}+b}}{1+e^{\boldsymbol{w} \cdot \boldsymbol{x}+b}}$
$\boldsymbol{x})=1-P(Y=1 | \boldsymbol{x})= \frac{1}{1+e^{\boldsymbol{w} \cdot \boldsymbol{x}+b}}$
这里， $\boldsymbol{x} \in \mathbb{R}^{n}$ 是输入， $\in\{0,1\}$ 是输出， $\boldsymbol{w} \in \mathbf{R}^{n}$ 和 $\in \mathbf{R}$ 是参数， $\boldsymbol{w}$ 称为权值向量， $b$ 称为偏置， $\boldsymbol{w} \cdot \boldsymbol{x}$ 是 $\boldsymbol{w}$ 和 $b$ 的内积。

对于给定的实例 $x$ ，

若 $\boldsymbol{x})>P(Y=0 | \boldsymbol{x})$ , 则属于 $Y = 1$ 的类；

若 $\boldsymbol{x})< P(Y=0 | \boldsymbol{x})$ , 则属于 $Y = 0$ 的类.

为了便于表达，将权重向量和输入向量加以扩充，仍然记作 $\boldsymbol{w},\boldsymbol{x}$ ，即 $\boldsymbol{w}=\left[\begin{array}{c}{w^{(1)}} \\ {w^{(2)}} \\ {\vdots} \\ {w^{(n)}} \\ {b}\end{array}\right]$ ， $\boldsymbol{x}=\left[\begin{array}{c}{x^{(1)}} \\ {x^{(2)}} \\ {\vdots} \\ {x^{(n)}} \\ {1}\end{array}\right]$ , 其中 $\boldsymbol{w} \cdot \boldsymbol{x}=w^{(1)}x^{(1)}+w^{(2)}x^{(2)}+...+w^{(n)}x^{(n)}+b$

这时，逻辑斯蒂回归模型如下：
$\boldsymbol{x})= \frac{1}{1+e^{-(\boldsymbol{w} \cdot \boldsymbol{x})}} = \frac{e^{\boldsymbol{w} \cdot \boldsymbol{x}}}{1+e^{\boldsymbol{w} \cdot \boldsymbol{x}}}$
$\boldsymbol{x})=1-P(Y=1 | \boldsymbol{x})= \frac{1}{1+e^{\boldsymbol{w} \cdot \boldsymbol{x}}}$

一个事件的几率(odds)是指该事件发生的概率与该事件不发生概率的比值，如果事件发生概率为 $p$ ，那么该事件的几率是 $\frac{p}{1-p}$ ，该事件的对数几率(log odds)或者logit(对它取log，即 log it)函数是：
$\operatorname{logit}(p)=\log \frac{p}{1-p}$
对逻辑斯蒂回归而言，由上面的式子 $\boldsymbol{x})$ 和 $\boldsymbol{x})$ 可得
$\begin{aligned} \log \frac{P(Y=1 | x)}{1-P(Y=1 | x)} &=\log \frac{\frac{e^{w \cdot x}}{1+e^{\boldsymbol{w} \cdot x}}}{\frac{1}{1+e^{w \cdot x}}} \\ &=\log \frac{e^{\boldsymbol{w} \cdot \boldsymbol{x}}}{1} \\ &=\log e^{\boldsymbol{w} \cdot \boldsymbol{x}} \\ &=\boldsymbol{w} \cdot \boldsymbol{x} \end{aligned}$

这就是说，在逻辑斯蒂回归模型中，输出 $Y = 1$ 的对数几率是输入 $x$ 的线性函数，或者说，输出 $Y = 1$ 的对数几率是由输入 $x$ 的线性函数表示的模型，即逻辑斯蒂回归模型。

换一个角度看，考虑对输入 $x$ 进行分类的线性函数 $\boldsymbol{w} \cdot \boldsymbol{x}$ ,其值域 $\boldsymbol{w} \cdot \boldsymbol{x} \in \mathbf{R}$ ，这里 $\boldsymbol{x} \in \mathbf{R}^{n+1}, \boldsymbol{w} \in \mathbf{R}^{n+1}$ 。通过逻辑斯蒂回归定义式可以将线性函数 $\boldsymbol{w} \cdot \boldsymbol{x}$ 转化为概率：
$\boldsymbol{x})= \frac{1}{1+e^{-(\boldsymbol{w} \cdot \boldsymbol{x})}} = \frac{e^{\boldsymbol{w} \cdot \boldsymbol{x}}}{1+e^{\boldsymbol{w} \cdot \boldsymbol{x}}}$

这时候，

当线性函数的值 $z=\boldsymbol{w} \cdot \boldsymbol{x} \rightarrow+\infty$ ，则 $\boldsymbol{x})\rightarrow 1$ ；

当线性函数的值 $z=\boldsymbol{w} \cdot \boldsymbol{x} \rightarrow-\infty$ ，则 $\boldsymbol{x})\rightarrow 0$ 。

【补充说明】

在上一章的线性回归中提到，线性回归使用的是平方损失：
$\begin{aligned} Loss_{(\omega, b)}=E_{(\omega, b)}&=\frac{1}{2 m} \sum_{i=1}^{m}\left(f(x_i)-y_{i}\right)^{2} \\ &=\frac{1}{2 m} \sum_{i=1}^{m}\left(y_{i}-\omega x_{i}-b\right)^{2} \end{aligned}$

因为这个函数 $Loss_{(\omega, b)}$ 是凸函数，直接可以通过求导等于零，来直接求出其解析解，比较简单。

对于逻辑回归而言，其中Sigmoid函数
$\begin{aligned} f(x)=\sigma(z) &=\frac{1}{1+e^{-z}} \\ &=\sigma(\boldsymbol{w} \cdot \boldsymbol{x}) \\ &=\frac{1}{1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}}} \end{aligned}$
如下图所示.
在这里插入图片描述

如果逻辑回归的损失函数也用平方损失函数，则有：
$\begin{aligned} Loss_{(\boldsymbol{w})}=E_{(\boldsymbol{w})}&=\frac{1}{2 m} \sum_{i=1}^{m}\left(f(x_i)-y_{i}\right)^{2} \\ &=\frac{1}{2 m} \sum_{i=1}^{m}\left(y_{i}- \sigma(z)\right)^{2} \\ &=\frac{1}{2 m} \sum_{i=1}^{m}\left(y_{i}- \sigma(\boldsymbol{w} \cdot \boldsymbol{x})\right)^{2} \\ &=\frac{1}{2 m} \sum_{i=1}^{m}\left(y_{i}-\frac{1}{1+e^{-(\boldsymbol{w} \cdot \boldsymbol{x})}}\right)^{2} \end{aligned}$

但是问题在于上式是非凸的，不能直接求出其解析解，而且不易优化，易陷入局部最小,即使使用梯度下降也很难寻找到全局最小值。
如下图所示：
在这里插入图片描述

所以下文采取了其他办法来优化，可以得到凸函数，能够求得最优解。

3.1.3 模型参数估计

逻辑斯蒂回归模型学习时，对于给定的训练集数据 $T=\left\{\left(\boldsymbol{x}_{1}, y_{1}\right),\left(\boldsymbol{x}_{2}, y_{2}\right), \cdots,\left(\boldsymbol{x}_{N}, y_{N}\right) \right\}$ ,其中 $\boldsymbol{x}_{i}=\left[\begin{array}{c}{x_{i}^{(1)}} \\ {x_{i}^{(2)}} \\ {\vdots} \\ {x_{i}^{(n)}}\end{array}\right] \in \mathbf{R}^{n}, \quad y_{i} \in\{0,1\}$ ，可以应用极大似然估计法估计模型参数，从而得到逻辑斯蒂回归模型。
设：
$\boldsymbol{x})=\pi(\boldsymbol{x}), \quad P(Y=0 | \boldsymbol{x})=1-\pi(\boldsymbol{x})$
似然函数为
$\prod_{i=1}^{N}\left[\pi\left(\boldsymbol{x}_{i}\right)\right]^{y_{i}}\left[1-\pi\left(\boldsymbol{x}_{i}\right)\right]^{1-y_{i}}$

对数似然函数为
$\begin{aligned} L(w) &=\log\left[ \prod_{i=1}^{N}\left[\pi\left(\boldsymbol{x}_{i}\right)\right]^{y_{i}}\left[1-\pi\left(\boldsymbol{x}_{i}\right)\right]^{1-y_{i}}\right] \\ &=\sum_{i=1}^{N}\left[y_{i} \log \pi\left(\boldsymbol{x}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(\boldsymbol{x}_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i} \log \frac{\pi\left(\boldsymbol{x}_{i}\right)}{1-\pi\left(\boldsymbol{x}_{i}\right)}+\log \left(1-\pi\left(\boldsymbol{x}_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i}\left(\boldsymbol{w} \cdot \boldsymbol{x}_{i}\right)-\log \left(1+e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}\right) \right]\end{aligned}$
接下来求 $L (w)$ 的极大值，从而得到 $w$ 的估计值。

这样一来，问题就变成了以对数似然函数为目标函数的最优化问题，逻辑斯蒂回归中通常的方法就是梯度下降法和拟牛顿法。

假设 $w$ 的极大似然估计值是 $\hat{\boldsymbol{w}}$ ,那么学习到的逻辑斯蒂回归模型为

$\boldsymbol{x})= \frac{1}{1+e^{-(\hat{\boldsymbol{w}} \cdot \boldsymbol{x})}} = \frac{e^{\hat{\boldsymbol{w}} \cdot \boldsymbol{x}}}{1+e^{\hat{\boldsymbol{w}} \cdot \boldsymbol{x}}}$
$\boldsymbol{x})=1-P(Y=1 | \boldsymbol{x})= \frac{1}{1+e^{\hat{\boldsymbol{w}} \cdot \boldsymbol{x}}}$

【补充说明】

上面的 $L (w)$ 中，需要求似然函数的极大值，即求
$\begin{aligned} L(w) &=\log\left[ \prod_{i=1}^{N}\left[\pi\left(\boldsymbol{x}_{i}\right)\right]^{y_{i}}\left[1-\pi\left(\boldsymbol{x}_{i}\right)\right]^{1-y_{i}}\right] \\ &=\sum_{i=1}^{N}\left[y_{i} \log \pi\left(\boldsymbol{x}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(\boldsymbol{x}_{i}\right)\right)\right] \end{aligned}$
的极大值，即求得
$\begin{aligned} \hat{\boldsymbol{w}} &=\underset{\boldsymbol{w}}{\arg \max } \sum_{i=1}^{N}\left[y_{i} \log \pi\left(\boldsymbol{x}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(\boldsymbol{x}_{i}\right)\right)\right] \end{aligned}$
其中 $\hat{\boldsymbol{w}}$ 是 $w$ 的极大似然估计值，即优化参数所得的结果。把上式的似然函数再取个相反数，即
$\begin{aligned} \hat{\boldsymbol{w}} &=\underset{\boldsymbol{w}}{\arg \min } \sum_{i=1}^{N}\left[-y_{i} \log \pi\left(\boldsymbol{x}_{i}\right)-\left(1-y_{i}\right) \log \left(1-\pi\left(\boldsymbol{x}_{i}\right)\right)\right] \end{aligned}$

使得上式右边取到极小值的 $\hat{\boldsymbol{w}}$ 即优化目标的参数。

再对所有样本取平均损失，可得到逻辑回归的损失函数：
$\begin{aligned} L(\boldsymbol{w}) &=\frac{1}{N}\sum_{i=1}^{N}\left[-y_{i} \log \pi\left(\boldsymbol{x}_{i}\right)-\left(1-y_{i}\right) \log \left(1-\pi\left(\boldsymbol{x}_{i}\right)\right)\right] \\ &=-\frac{1}{N}\sum_{i=1}^{N}\left[y_{i} \log \pi\left(\boldsymbol{x}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(\boldsymbol{x}_{i}\right)\right)\right] \end{aligned}$

上式这个损失函数即常见的逻辑回归的损失函数，可见它是从极大似然推导出来的。
并且这个损失函数 $L(\boldsymbol{w})$ 是凸函数，没有局部最优解，便于优化。

并且可得损失
$L(\boldsymbol{w})=\left\{\begin{aligned}-\log \left(\pi\left(\boldsymbol{x}_{i}\right)\right) & \text { if } y=1 \\-\log \left(1-\pi\left(\boldsymbol{x}_{i}\right)\right) & \text { if } y=0 \end{aligned}\right.$
其中
$\pi\left(\boldsymbol{x}_{i}\right)=P(Y=1 | \boldsymbol{x}) = \frac{e^{\boldsymbol{w} \cdot \boldsymbol{x}}}{1+e^{\boldsymbol{w} \cdot \boldsymbol{x}}} = \frac{1}{1+e^{-(\boldsymbol{w} \cdot \boldsymbol{x})}}$

以下是直观的理解：
在这里插入图片描述
当类别标签为 $y = 1$ 时，越靠近 $1$ 则损失越小；当类别标签为 $y = 0$ 时，越靠近 $1$ 则损失越大；

3.1.4 多项逻辑斯蒂回归模型(multi-nominal logistic regression model)

上面的二项逻辑斯蒂回归用于二分类问题，接下来的多项逻辑斯蒂回归(multi-nominal logistic regression model)用于多分类问题。

假设离散型随机变量 $Y$ 的取值集合是 $\{1,2, \cdots, K\}$ ，即类别标签有 $K$ 类，那么类似的，多项逻辑斯蒂回归模型是
$\begin{aligned} P(Y=k | \boldsymbol{x})&=\frac{e^{\boldsymbol{w}_{k} \cdot \boldsymbol{x}}}{1+\sum_{k=1}^{K-1} e^{\boldsymbol{w}_{k} \cdot \boldsymbol{x}}}, \quad k=1,2, \cdots, K-1 \\ P(Y=K | \boldsymbol{x})&=\frac{1}{1+\sum_{k=1}^{K-1} e^{\boldsymbol{w}_{k} \cdot \boldsymbol{x}}} \end{aligned}$
这里, $\boldsymbol{x} \in \mathbf{R}^{n+1}, \boldsymbol{w}_{k} \in \mathbf{R}^{n+1}$

二项逻辑斯蒂回归的参数估计法也可以推广到多项逻辑斯蒂回归中。

3.2 逻辑回归的梯度下降算法

【说明】
本文仅对二项逻辑回归运用梯度下降算法，多项逻辑回归以此类推。

上文已经提到，由于类比线性回归那样，直接采用平方损失的话，由于 $\sigma$ 函数的非线性，会导致这个损失函数是非凸的,所以采用了极大似然估计来推其另一种形式的损失函数，这种由极大似然估计推导出来的损失函数即常见的交叉熵损失函数(Cross Entropy loss )。

由上面已经得到二项逻辑回归的损失函数，接下来利用梯度下降法进行优化求解。
其中， $\boldsymbol{w}=\left[\begin{array}{c}{w^{(1)}} \\ {w^{(2)}} \\ {\vdots} \\ {w^{(n)}} \\ {b}\end{array}\right]$ ， $\boldsymbol{x}_i=\left[\begin{array}{c}{x_i^{(1)}} \\ {x_i^{(2)}} \\ {\vdots} \\ {x_i^{(n)}} \\ {1}\end{array}\right]$ ，下标表示样本数，上标表示特征维度。梯度下降法如下：
$\begin{aligned} \text{Repeat} &\Bigg\{ w_j:=w_j-\alpha \frac{\partial L(\boldsymbol{w})}{\partial w_{j}} \\ &(\text{simultaneously(同时) update all} \quad w_j) \\ &\Bigg\} \end{aligned}$

交叉熵损失函数
$L(\boldsymbol{w})=-\frac{1}{N} \sum_{i=1}^{N}\left[y_{i} \log f\left(\boldsymbol{x}_{i}\right)+\left(1-y_{i}\right) \log \left(1-f\left(\boldsymbol{x}_{i}\right)\right)\right]$
其中，预测类别标签为 $Y = 1$ 的概率 $P(Y=1|\boldsymbol{x})$ ，或者说是预测的输出 $f(x_i)$ (一般真实的类别标签用 $y_i$ 表示)
$\boldsymbol{x})=f\left(x_{i}\right)=\frac{1}{1+e^{ \boldsymbol{w} \cdot \boldsymbol{x}_{i}}}$
所以
$\begin{aligned} & y_{i} \log f\left(\boldsymbol{x}_{i}\right)+\left(1-y_{i}\right) \log \left(1-f\left(\boldsymbol{x}_{i}\right)\right) \\=& y_{i} \log \left(\frac{1}{1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right)+\left(1-y_{i}\right) \log \left(1-\frac{1}{1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right) \\=&-y_{i} \log \left(1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}\right)+\left(1-y_{i}\right) \log \left(\frac{e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}{1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right) \\=&-y_{i} \log \left(1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}\right)-\left(1-y_{i}\right) \log \left(\frac{1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}{e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right) \\=&-y_{i} \log \left(1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}\right)-\left(1-y_{i}\right) \log \left(1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}\right) \\=&-y_{i} \log \left(1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}\right)-\left(1-y_{i}\right) \log \left(1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}\right) \end{aligned}$
所以
$\begin{aligned} \frac{\partial L(\boldsymbol{w})}{\partial w_{i}} &=\frac{\partial}{\partial w_{i}}\left\{-\frac{1}{N} \sum_{i=1}^{N}\left[y_{i} \log f\left(\boldsymbol{x}_{i}\right)+\left(1-y_{i}\right) \log \left(1-f\left(\boldsymbol{x}_{\boldsymbol{i}}\right)\right)\right]\right\} \\ &=\frac{\partial}{\partial w_{i}}\left\{-\frac{1}{N} \sum_{i=1}^{N}\left[-y_{i} \log \left(1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}\right)-\left(1-y_{i}\right) \log \left(1+e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}\right)\right]\right\} \\ &=-\frac{1}{N} \sum_{i=1}^{N}\left[-y_{i}\left(\frac{-x_{i}^{(j)} e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}{1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right)-\left(1-y_{i}\right)\left(\frac{\boldsymbol{x}_{i}^{(j)} \boldsymbol{e}^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}{1+\boldsymbol{e}^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right)\right] \\ &=-\frac{1}{N} \sum_{i=1}^{N}\left[y_{i}\left(\frac{x_{i}^{(j)}}{1+e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right)-\left(1-y_{i}\right)\left(\frac{{x}_{i}^{(j)} e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}{1+\boldsymbol{e}^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right)\right] \\ &=-\frac{1}{N} \sum_{i=1}^{N}\left[\frac{y_{i} x_{i}^{(j)}-x_{i}^{(j)} e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}+y_{i} x_{i}^{(j)} e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}{1+e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right] \\ &=-\frac{1}{N} \sum_{i=1}^{N}\left[\left(\frac{y_{i}\left(1+e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}\right)-e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}{1+e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right) x_{i}^{(j)}\right] \\ &=-\frac{1}{N} \sum_{i=1}^{N}\left[\left(y_{i}-\frac{e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}{1+e^{\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right) x_{i}^{(j)}\right] \\ &=-\frac{1}{N} \sum_{i=1}^{N}\left[\left(y_{i}-\frac{1}{1+e^{-\boldsymbol{w} \cdot \boldsymbol{x}_{i}}}\right) x_{i}^{(j)}\right] \\ &=-\frac{1}{N} \sum_{i=1}^{N}\left[\left(y_{i}-f\left(\boldsymbol{x}_{i}\right)\right) x_{i}^{(j)}\right] \\ &=\frac{1}{N} \sum_{i=1}^{N}\left[f\left(\boldsymbol{x}_{i}\right)-\left(y_{i}\right) x_{i}^{(j)}\right] \end{aligned}$

所以梯度下降法如下：
$\begin{aligned} \text{Repeat} &\Bigg\{ w_j:=w_j-\alpha \frac{1}{N} \sum_{i=1}^{N}\left[f\left(\boldsymbol{x}_{i}\right)-\left(y_{i}\right) x_{i}^{(j)}\right] \\ &(\text{simultaneously(同时) update all} \quad w_j) \\ &\Bigg\} \end{aligned}$

【注】
：虽然得到的梯度下降算法表面上看与线性回归的梯度下降算法一样，但是这里的 $f(x)=g(\boldsymbol {w \cdot x})=\sigma (\boldsymbol {w \cdot x})$ 是非线性的，与线性回归实际上是不一样的。另外，在运行梯度下降算法时，进行特征缩放是必要的，这个在后续再行补充。

参考

1.李航《统计学方法》
2.周志华《机器学习》
3.吴恩达《机器学习》课程

推荐阅读

交叉熵损失(Cross-entropy)和平方损失(MSE)究竟有何区别？

超详细｜算法岗学习路线大总结

苏学算法

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
保姆级讲解｜逻辑回归（LR）与最大熵模型

本文是笔者初学时的推导笔记，极其详细，可谓“保姆级”详细推导，看不懂的来打我好吧 ???? ???? ????另外，觉得前面在讲废话到可以直接跳到第三章???? ???? ????之前的一篇文章交叉熵损失(Cross-entropy)和平方损失(MSE)究竟有何区别？，其中就涉及到逻辑回归，那么今天，我就把逻辑回归掰开了揉碎了再讲一遍本篇公式过多，导致编辑器直接卡死好几次，来个三连一点都不过分好吧 ???? ???? ????为了引出逻辑回归，先从最简单的线性回归开始讲起…一、直观理解1.
复制链接

扫一扫