【西瓜书】线性回归在回归，二分类，多分类问题上的应用与推导

最新推荐文章于 2025-03-17 11:51:41 发布

_RaymondWong

最新推荐文章于 2025-03-17 11:51:41 发布

阅读量1.2w

点赞数 6

分类专栏：整理机器学习

本文链接：https://blog.csdn.net/u011607316/article/details/70446642

版权

整理同时被 2 个专栏收录

4 篇文章

订阅专栏

机器学习

3 篇文章

订阅专栏

概述

在介绍线性回归前，首先要搞清楚线性模型这个概念

线性模型(linear model)试图学得一个通过属性的线性组合进行预测的函数，即
$f (x) = w 1 x 1 + w 2 x 2 + w 3 x 3 + . . . + w d x d + b$ $f(x)=w_1x_1 + w_2x_2 + w_3x_3 + ... + w_dx_d + b$ 一般用向量形式写成 $f (x) = w T x + b$ $f(x) = w^Tx+b$

线性回归(linear regression)是试图学得一个线性模型以尽可能准确地预测实值的输出标记。线性回归一般被用在回归问题上，但是对线性回归做出简单的变换，即可用于进行二分类问题。此时的线性回归模型也就变成了我们熟悉的逻辑斯蒂回归(logistic regression)。而一个多分类问题又可以分解成多个二分类问题，于是我们同样可以将逻辑斯蒂回归模型用于解决多分类问题上。以下将顺序介绍线性回归，逻辑斯蒂回归，以及多分类问题如何分解成多个二分类问题。

线性回归（linear regression）

首先我们定义一下字符。一个样本我们用 $x$ 来表示，数据集中第k个样本则为 $x_k$ 。一个样本中存在d个特征值，我们用一个列向量来表示一个样本，即 $x_k = (x_k^1;x_k^2;x_k^3;...;x_k^d)$ 。 $w$ 是待学习的权重，因为每个样本中有d个特征，因此w是一个d维的列向量，记为 $w=(w^1;w^2;w^3,...,w^d)$ 。在w和b确定的的情况下，模型就确定了下来 $\hat{y} = w^Tx + b$ 。我们用均方误差来衡量模型的性能，则 $L(w,b) = \sum_{i=0}^m(y_i - \hat{y}_i^2) = \sum_{i=0}^m(y_i - w^Tx_i - b)^2$ 。其中m为样本总数。
简单梳理一下，在训练过程（在这里我们把确定w和b的过程称为训练过程）中我们的目标是找出令 $L(w,b) = \sum_{i=0}^m(y_i - w^Tx_i - b)^2$ 最小的w和b。而在测试过程（在这里我们把根据求得的w和b计算y的过程称为测试过程）中，我们输入 $x$ 的输出为 $\hat{y} = w^Tx + b$ 。
目标明确后，我们如何计算得到w和b使得L(w,b)最小呢？因为这是一个线性模型，而且求解的目标是均方误差最小化，因此我们可以用最小二乘法来求解w和b。
p.s. 为了方便讨论，我们在下面的推导中将x的维度设为1，即d=1
首先将损失函数L分别对w和b求偏导，得：

\partial L ( w , b ) \partial b = - 2 \sum i = 1 m (y i - w x i - b)

$\frac{\partial L(w,b)}{\partial b} = -2 \sum_{i=1}^m(y_i - wx_i - b)$

\partial L ( w , b ) \partial w = - 2 \sum i = 1 m (x i y i - w x 2 i - b x i)

$\frac{\partial L(w,b)}{\partial w} = -2 \sum_{i=1}^m(x_iy_i - wx_i^2 - bx_i)$
令

∂L(w,b)∂b=0 $\frac{\partial L(w,b)}{\partial b} = 0$ 得

b=1m∑mi=1(yi−wxi) $b = {1\over m}\sum_{i=1}^m(y_i - wx_i)$ 又因为

my¯=∑mi=1yi,mx¯=∑mi=1xi $m\overline y = \sum_{i=1}^my_i, m\overline x = \sum_{i=1}^mx_i$ 所以

b = y ¯ - w x ¯

$b = \overline y - w\overline x$ 接下来将b代入

∂L(w,b)∂w $\frac{\partial L(w,b)}{\partial w}$ 中得

∂L(w,b)∂w=−2(∑mi=1xiyi−w∑mi=1x2i−y¯∑mi=1xi+wx¯∑mi=1xi) $\frac{\partial L(w,b)}{\partial w} = -2(\sum_{i=1}^mx_iy_i - w\sum_{i=1}^mx_i^2 - \overline y\sum_{i=1}^mx_i + w\overline x\sum_{i=1}^mx_i)$ 。令上式等于0，得

w = \sum m i = 1 x i y i - y ¯ \sum m i = 1 x i \sum m i = 1 x 2 i - x ¯ \sum m i = 1 x i = \sum m i = 1 ( x i - x ¯ ) ( y i - y ¯ ) \sum m i = 1 ( x i - x ¯ ) 2

$w={\sum_{i=1}^mx_iy_i - \overline y \sum_{i=1}^mx_i \over \sum_{i=1}^mx_i^2 - \overline x \sum_{i=1}^mx_i} = {\sum_{i=1}^m(x_i - \overline x)(y_i - \overline y) \over \sum_{i=1}^m(x_i - \overline x)^2}$ 上式第二个等号右边可由求和性质求得，如果不理解没有关系，因为第二个等号左边已经完全有x和y构成，因此不理解第二个等号右边也能够求得w，如果有兴趣，可以参考这个链接，里面有详细的解释。通过上面的推导，我们求出了w和b，模型就确定了下来。
但是上面的公式推导是基于x的维度d=1的情况，在更一般的情况下d并不等于1，也就是我们一开始讨论的

y^=wTx+b $\hat{y} = w^Tx + b$ ，此时线性回归有个特殊的名字，叫做多元线性回归。为了方便讨论，我们记

w^=(w;b),X=(xT1,1;xT2,1;...;xTm,1 $\hat{w} = (w;b), X=(x_1^T,1; x_2^T, 1; ...; x_m^T, 1$ 。那么

y^=Xw^ $\hat{y} = X\hat{w}$ ，而损失函数

L (w, b) = L (w^) = (y - X w^) T (y - X w^)

$L(w,b)=L(\hat{w})=(y-X\hat{w})^T(y-X\hat{w})$

L(w^) $L(\hat{w})$ 对

w^ $\hat{w}$ 求偏得

\partial L ( w ^ ) w ^= 2 X T (X w^- y)

$\frac{\partial L(\hat{w})}{\hat{w}} = 2X^T(X\hat{w} - y)$
令偏导等于0，得

w^* = (X T X) - 1 X T y

$\hat{w}^* = (X^TX)^{-1}X^Ty$
确定了

w^ $\hat{w}$ 后，这个多元线性回归模型就确定了。

逻辑斯蒂回归（logistic regression）

在介绍完线性回归后，我们分析一下如何将线性回归运用到分类问题上，为了方便讨论，我们先从二分类问题开始。线性回归的预测结构 $\hat{y}$ 是一个实值，而如果要处理二分类问题，我们希望 $\hat{y} \in \{0, 1\}$ 。那么我们就需要找出一个函数f使得 $f(\hat{y}) \in \{0, 1\}$ 。最理想的就是单位阶跃函数：

f (y^) = ⎧ ⎩ ⎨ 1, 0.5, 0, if y^> 0 if y^= 0 if y^< 0

$f(\hat{y}) = \begin{cases} 1, & \text{if $\hat{y}$ > 0} \\ 0.5, & \text{if $\hat{y}$ = 0} \\ 0, & \text{if $\hat{y}$ < 0} \\ \end{cases}$
然而单位阶跃函数却不连续，我们希望找到一个单调可微的函数，因此我们选择了对数几率函数：

y = 1 1 + e - y ^= 1 1 + e - ( w T x + b )

$y = {1 \over 1 + e^{-\hat{y}}} = {1 \over 1 + e^{-(w^Tx+b)}}$
将上述函数进行简单变换，可以得到以下表达式：

l n y ^ 1 - y ^= w T x + b

$ln{\hat{y} \over 1 - \hat{y}} = w^Tx + b$
我们将

y^ $\hat{y}$ 认为是样本x为正类的可能性，则

1−y^ $1 - \hat{y}$ 则为样本x为负类的可能性，

y^1−y^ $\hat y \over 1 - \hat{y}$ 则是样本x为正样本的相对可能性。如果

y^1−y^>1 ${\hat y \over 1 - \hat y} > 1$ 说明样本为正类的可能性大于负类的可能性，反之。

lny^1−y^ $ln{\hat y \over 1 - \hat y}$ 则为样本为正类的对数几率，当

lny^1−y^>0 $ln{\hat y \over 1 - \hat y} > 0$ 时样本为正类的可能性大于样本为负类可能性，反之。
简单介绍了如果借助线性回归解决二分类问题并引出逻辑斯蒂回归后，下一步就是推导如何求解逻辑斯蒂回归中的w和b。
首先我们用后验概率估计来表示

y^ $\hat y$ ，得到：

⎧ ⎩ ⎨ y^1 - y^= p (y = 1 | x) = e w T x + b 1 + e w T + b = p (y = 0 | x) = 1 1 + e w T + b

$\begin{cases} \hat y &= p(y=1 | x) = {e^{w^Tx + b} \over 1 + e^{w^T+b}} \\ 1 - \hat y &= p(y = 0 | x) = {1 \over 1 + e^{w^T+b}} \end{cases}$
然后我们就可以用最大似然估计法来估算w和b，损失函数

L(w,b) $L(w, b)$ 记为

L (w, b) = \sum i = 1 m l n p (y i | x i; w, b)

$L(w, b) = \sum_{i = 1}^mlnp(y_i | x_i; w,b)$
为了方便讨论，我们记

W=(w;b),x^=(x;1),p1(x^;W)=p(y=1|x^;W),p0(x^;W)=p(y=0|x^;W) $W=(w;b),\hat x=(x;1),p_1(\hat x; W) = p(y=1|\hat x;W),p_0(\hat x; W) = p(y=0|\hat x; W)$ 。那么

p (y i | x i; w, b) = p 1 (x i^; W) y i p 0 (x i^; W) 1 - y i

$p(y_i | x_i; w,b)=p_1(\hat {x_i};W)^{y_i}p_0(\hat {x_i}; W)^{1 - y_i}$
将上式代入L(w,b)中，可得

L (w, b) = L (W) = \sum i = 1 m y i W T x i^- l n (1 + e W T x i^)

$L(w,b) = L(W) = \sum_{i=1}^my_iW^T\hat {x_i} - ln(1 + e^{W^T\hat{x_i}})$
我们的目标是最大化每个样本被正确分类的可能性，即最大化

L(W) $L(W)$ 。估对

L(W) $L(W)$ 取反，并用传统的梯度下降法或牛顿法求

argminW −L(W) $\begin{equation} \mathop{\arg\min}_{W} \ \ -L(W)\ \end{equation}$ 的最优解W。这里以梯度下降法为例，梯度下降法的更新公式即推导为：

\partial - L ( W ) \partial W = \sum i = 1 m x i ^ e W T x i ^ 1 + e W T x i ^- x i y i = \sum i = 1 m (y i^- y i) x i^

$\frac{\partial -L(W)}{\partial W} = \sum_{i=1}^m{\hat{x_i}e^{W^T\hat{x_i}}\over 1 + e^{W^T\hat {x_i}}} - x_iy_i = \sum_{i=1}^m(\hat{y_i} - y_i)\hat{x_i}$

W t + 1 j = W t j - α \sum i = 1 m (y i^- y i) x i, j

$W_j^{t+1} = W_j^t - \alpha \sum_{i=1}^m(\hat{y_i} - y_i)x_{i,j}$

多分类问题

现实中相对于二分类问题而言，我们更常遇到的是多分类问题。而多分类问题如何拆解成多个二分类问题并用多个二分类器来进行求解呢，一般情况下，我们会将问题进行拆分，然后为每个拆出的二分类任务训练一个分类器。在测试的时候，对这些分类器的预测结果进行集成以获得最终的多分类结果。这里面的关键是如何对问题进行拆分，拆分的策略。以下详细介绍一下常见的三种拆分策略。

OvO，一对一

该策略将N个类别两两配对，从而产生N(N-1)/2个二分类任务，在每个任务中将其中一个类别视为正类，另一类别视为反类。测试阶段中，将所有二分类器得到的结果进行投票产生最终的结果

OvR，一堆其余

将N个类别中的一个类别作为正类，其余类别都作为反类，训练N个分类器。测试阶段中如果只有一个二分类器预测结果为正类，则该二分类器对应的类别就是预测类别。若有多个分类器预测为正，则根据预测置信度决定分类结果。

MvM，多对多

多对多策略是每次将若干个类作为正类，若干个类作为反类。OvO和OvR是MvM的特例。MvM的一种常用技术称为“纠错输出码”。该技术分成两个阶段：

编码：对N个类别做M次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集；这样一共产生M个训练集，可训练出M个分类器
解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码。将这个预测编码与每个类别格子的编码进行比较（每个类别在M个分类器中都可能属于正类或者反类，所以每个类别有一个M位的编码），返回其距离最小的类别作为最终预测结果

逻辑斯蒂回归在多分类问题上的推导可参考这篇博客。