（《机器学习》完整版系列）第3章线性模型——3.2 对数几率回归，俗称：逻辑回归（但它既不“逻辑”也不是“回归”）-CSDN博客

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129143537

对数几率回归（俗称：逻辑回归），它既不“逻辑”也不是“回归”，实际上它是个二分类问题，只不过是在过程中用到两个公式，一个是线性回归公式，另一个logit函数（音译为“逻辑”）。故名字拼凑为“逻辑回归”。
代价敏感时需要对几率进行“再放缩”。

对数几率回归

对数几率

在“2.3 恭喜：高考你被录取了！”节的高考例子：为了解决一个二分类问题，先做一个“回归”（打分），再做一个“分段”（录取）。这就是对数几率回归的思路，公式为
$\begin{align} z & =\boldsymbol{w}^\mathrm{T}\boldsymbol{x}+b\qquad \text{（线性回归）}\tag{1} \\ y & =\frac{1}{1+\mathrm{e}^{-z}}\qquad \text{（logistic函数）}\tag{2} \end{align}$
俗称：逻辑回归，名字取自上述公式，即式(1)线性回归（回归）和式(2)logistic函数（逻辑，音译）

两式合并即为【西瓜书式(3.18)】，转化为【西瓜书式(3.19)】。

观察【西瓜书图3.2】， $y$ 可作为样本 $\boldsymbol{x}$ 的函数值逼近1的程度，可视为该样本作为正例的可能性，对应地， $1 - y$ 为样本 $\boldsymbol{x}$ 作为反例的可能性，为区别，我们将分类标记记为 $y'\in \{0,1\}$ ，即
$\begin{align} y & =p(y'=1\,|\,\boldsymbol{x})\qquad \text{（正例概率）}\tag{3} \\ 1-y & =p(y'=0\,|\,\boldsymbol{x})\qquad \text{（反例概率）}\tag{4} \end{align}$
式的左边 $y$ 是回归问题（连续），右边 $y^{'}$ 是二分类问题（离散），这里表达了二者之间的联系。
两式的比，即为样本 $\boldsymbol{x}$ 作为正例的“相对”可能性（几率），取对数后即为“对数几率”【西瓜书式(3.21)】。

式(1)、式(2)代入式(3)、式(4)得【西瓜书式(3.23)(3.24)】，注：为方便书写，将 $y^{'}$ 改写为 $y$ ，即现在 $y$ 是指标记预测 $y^{'}$ ，后续需要真正的 $y$ 时，以式(2)右侧代替。

给定数据集 $\{(\boldsymbol{x}_i,y_i)\}_i^m(y_i\in \{0,1\})$ ，使用最大化对数似然来求解参数（原理参见【西瓜书7.2节】），由【西瓜书式(7.10)】，得到求最大值的目标函数【西瓜书式(3.25)】。其中
$\begin{align} \quad \mathrm{ln}\,p(y_i\,|\,\boldsymbol{x}_i) & = \begin{cases} \mathrm{ln}\,p(y_i=1\,|\,\boldsymbol{x}_i)\qquad \text{(当$y_i=1$发生时)} \\ \mathrm{ln}\,p(y_i=0\,|\,\boldsymbol{x}_i)\qquad \text{(当$y_i=0$发生时)} \\ \end{cases}\notag \\ & =y_i\mathrm{ln}\,p(y_i=1\,|\,\boldsymbol{x}_i)+(1-y_i)\mathrm{ln}\,p(y_i=0\,|\,\boldsymbol{x}_i)\qquad \text{（两式合为一式）}\notag \\ & =y_i\mathrm{ln}\,\frac{p(y_i=1\,|\,\boldsymbol{x}_i)}{p(y_i=0\,|\,\boldsymbol{x}_i)}+\mathrm{ln}\,p(y_i=0\,|\,\boldsymbol{x}_i)\notag \\ & =y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)-\mathrm{ln}\,(1+\mathrm{e}^{\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b})\qquad \text{（由【西瓜书式(3.22)(3.24)】）}\notag \\ & =y_i\boldsymbol{\beta }^\mathrm{T}\hat{\boldsymbol{x}}_i-\mathrm{ln}\,(1+\mathrm{e}^{\boldsymbol{\beta }^\mathrm{T}\hat{\boldsymbol{x}}_i}) \tag{5} \end{align}$
其中， $\boldsymbol{\beta }=(\boldsymbol{w};b),\hat{\boldsymbol{x}}_i=(\boldsymbol{x}_i;1)$ 。

代入目标函数【西瓜书式(3.25)】，并将求最大转化为求最小，即得最小值的目标函数【西瓜书式(3.27)】，可以有多种方法求最优解 $\boldsymbol{\beta}^{*}$ ，梯度下降法及牛顿法原理参见【西瓜书附录第B.4节】。

类别不平衡处理

【西瓜书式(3.20)】解释了“几率”的意义，那么，预测样本为正例的条件： $y > 1 - y$ ，即【西瓜书式(3.46)】。从这个不等式中我们可以解出阈值为0.5，当学习器对样本计算出 $y$ 超过这个阈值时，则预测样本为正例。阈值0.5意味着样本空间中正样本和负样本是平衡的，当样本空间中样本不平衡时，【西瓜书式(3.46)】就变成了【西瓜书式(3.47)】，这就是在类别不平衡时对几率的“再缩放”法【西瓜书式(3.48)】。

我们再来讨论：代价敏感时如何对几率进行“再放缩”。

设样本空间中二类别是平衡的但各类误报的代价不一样：第 $i$ 类样本错分入第 $j$ 类时，产生的损失为 ${\mathrm{cost}}_{ij}>0$ 且 ${\mathrm{cost}}_{ii}=0$ ，其中， $i, j = 0, 1$ ，这就形成代价矩阵表【西瓜书表2.2】。
若预测器得到 $x$ 属于第0类（正例）的概率为 $P(j=0\,|\,x)$ ，属于第1类（负例）的概率为 $P(j=1\,|\,x)$ ，那么，它如何作出分类决策呢？

若预报为第0类（正例），则损失为
$\begin{align*} P(j=0\,|\,x){\mathrm{cost}}_{00}+P(j=1\,|\,x){\mathrm{cost}}_{10}\qquad \text{即：}P(j=1\,|\,x){\mathrm{cost}}_{10} \end{align*}$

若预报为第1类（反例），则损失为
$\begin{align*} P(j=0\,|\,x){\mathrm{cost}}_{01}+P(j=1\,|\,x){\mathrm{cost}}_{11}\qquad \text{即：}P(j=0\,|\,x){\mathrm{cost}}_{01} \end{align*}$

根据“损失最小化”进行预测决策的原则，则预测器对样本 $x$ 预测为第0类的条件为
$\begin{align*} P(j=1\,|\,x){\mathrm{cost}}_{10}\leqslant P(j=0\,|\,x){\mathrm{cost}}_{01} \end{align*}$

即
$\begin{align*} \frac{P(j=0\,|\,x)}{P(j=1\,|\,x)}\geqslant \frac{{\mathrm{cost}}_{10}}{{\mathrm{cost}}_{01}} \end{align*}$

参照【西瓜书式(3.47)】的分析，即有
$\begin{align} \frac{y}{1-y}\geqslant \frac{{\mathrm{cost}}_{10}}{{\mathrm{cost}}_{01}} \tag{6} \end{align}$

当代价一样（ ${{\mathrm{cost}}_{10}}={{\mathrm{cost}}_{01}}$ ）时，即为【西瓜书式(3.46)】；

当代价不一样时，参照【西瓜书式(3.48)】，式(6)两边乘以右边的倒数，变为
$\begin{align} \frac{y'}{1-y'}=\frac{y}{1-y} \cdot \frac{{\mathrm{cost}}_{01}}{{\mathrm{cost}}_{10}}\geqslant 1 \tag{7} \end{align}$
这即是预测器对样本 $x$ 预测为第0类的决策条件，它表明：对几率 $\frac{y}{1-y}$ 进行“再缩放”后，再与数值1比较进行决策。

比较式(7)与【西瓜书式(3.49)】知其“再缩放”因子为
$\frac{m^-}{m^+}=\frac{{\mathrm{cost}}_{01}}{{\mathrm{cost}}_{10}}=\frac{{\mathrm{cost}}^+}{{\mathrm{cost}}^-}$

从类别不平衡导致的重要性权重来看，通常样本少的类较之样本较多的类（如，患者较之健康人、罕见病较之常见病），少者的重要性权重更大，即重要性权重与类的样本数占比成反比例关系
$\begin{align} \frac{w^+}{w^-}=\frac{m^-}{m^+}=\frac{{\mathrm{cost}}_{01}}{{\mathrm{cost}}_{10}} \tag{8} \end{align}$