机器学习——第三章线性模型-CSDN博客

本文链接：https://blog.csdn.net/adchloe/article/details/140607229

1 基本形式

线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数, 即 $f(\boldsymbol{x})=w_{1} x_{1}+w_{2} x_{2}+\ldots+w_{d} x_{d}+b$ ,一般用向量形式写成 $f(\boldsymbol{x})=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$ 。

2 线性回归

给定数据集D.线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。
对离散属性,若属性值间存在“序”(order)关系,可通过连续化将其转化为连续值，线性回归试图学得
$f(x_i)=wx_i+b,使得f(x_i)\simeq y_i$
通过试图让均方误差最小化，来确认w和b，即
$\begin{aligned}\left(w^*, b^*\right) & =\underset{(w, b)}{\arg \min } \sum_{i=1}^m\left(f\left(x_i\right)-y_i\right)^2 \\ & =\underset{(w, b)}{\arg \min } \sum_{i=1}^m\left(y_i-w x_i-b\right)^2 .\end{aligned}$

均方误差对应了欧几里得距离，基于均方误差最小化来进行模型求解的方法称为最小二乘法。
求解 $w$ 和 $b$ 使 $E_{(w,b)}=\sum_{i=1}^m\left(y_i-w x_i-b\right)^2$ 最小化的过程, 称为线性回归模型的最小二乘 “参数估计” (parameter estimation). 我们可将 $E_{(w, b)}$ 分别对 $w$ 和 $b$ 求导, 得到
$\begin{aligned} & \frac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^m x_i^2-\sum_{i=1}^m\left(y_i-b\right) x_i\right) \\ & \frac{\partial E_{(w, b)}}{\partial b}=2\left(m b-\sum_{i=1}^m\left(y_i-w x_i\right)\right) \end{aligned}$

多元线性回归模型为：
$f(\tilde x_i)=\tilde x_i^T(X^TX)^{-1}X^Ty$
当不是满秩矩阵时，可以引入正则化。

3 对数几率回归

适用于分类任务。寻找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
当面对二分类任务时候，将线性回归模型参数的预测值（实值）转化为0/1值。最理想的是单位阶跃函数。
在这里插入图片描述
可通过 “极大似然法” (maximum likelihood method)来估计 $\boldsymbol{w}$ 和 $b$ . 给定数据集 $\left\{\left(\boldsymbol{x}_i, y_i\right)\right\}_{i=1}^m$ , 对率回归模型最大化 “对数似然”
$\ell(\boldsymbol{w}, b)=\sum_{i=1}^m \ln p\left(y_i \mid \boldsymbol{x}_i ; \boldsymbol{w}, b\right),$

即令每个样本属于其真实标记的概率越大越好. 为便于讨论, 令 $\boldsymbol{\beta}=(\boldsymbol{w} ; b)$ , $\hat{\boldsymbol{x}}=(\boldsymbol{x} ; 1)$ , 则 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$ 可简写为 $\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}$ . 再令 $p_1(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})=p(y=1 \mid \hat{\boldsymbol{x}} ; \boldsymbol{\beta})$ , $p_0(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})=p(y=0 \mid \hat{\boldsymbol{x}} ; \boldsymbol{\beta})=1-p_1(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})$ , 则式中的似然项可重写为
$p\left(y_i \mid \boldsymbol{x}_i ; \boldsymbol{w}, b\right)=y_i p_1\left(\hat{\boldsymbol{x}}_i ; \boldsymbol{\beta}\right)+\left(1-y_i\right) p_0\left(\hat{\boldsymbol{x}}_i ; \boldsymbol{\beta}\right) .$

将式代入, 并根据式和可知, 最大化式等价于最小化
$\ell(\boldsymbol{\beta})=\sum_{i=1}^m\left(-y_i \boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}_i+\ln \left(1+e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{x}_i}\right)\right) .$

4 线性判别分析

思想：给定训练例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近，异样样例的投影点尽可能远离。在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。
在这里插入图片描述
给定数据集 $D$ , 令 $X_i 、 \boldsymbol{\mu}_i 、 \boldsymbol{\Sigma}_i$ 分别表示第 $i$ 类示例的集合、均值向量、协方差矩阵. 若将数据投影到直线 $\boldsymbol{w}$ 上,则两类样本的中心在直线上的投影分别为 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_0$ 和 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_1$ ; 若将所有样本点都投影到直线上, 则两类样本的协方差分别为 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_0 \boldsymbol{w}$ 和 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_1 \boldsymbol{w}$ . 由于直线是一维空间, 因此 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_0 、 \boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_1 、 \boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_0 \boldsymbol{w}$ 和 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_1 \boldsymbol{w}$ 均为实数.
欲使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可能小, 即 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_0 \boldsymbol{w}+\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_1 \boldsymbol{w}$ 尽可能小; 而欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大. 同时考虑二者, 则可得到欲最大化的目标
$\begin{aligned} J & =\frac{\left\|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_0-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_1\right\|_2^2}{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_0 \boldsymbol{w}+\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\Sigma}_1 \boldsymbol{w}} \\ & =\frac{\boldsymbol{w}^{\mathrm{T}}\left(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1\right)\left(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1\right)^{\mathrm{T}} \boldsymbol{w}}{\boldsymbol{w}^{\mathrm{T}}\left(\boldsymbol{\Sigma}_0+\boldsymbol{\Sigma}_1\right) \boldsymbol{w}} \end{aligned}$

类内散度矩阵:
$\begin{aligned} \mathbf{S}_w & =\boldsymbol{\Sigma}_0+\boldsymbol{\Sigma}_1 \\ & =\sum_{\boldsymbol{x} \in X_0}\left(\boldsymbol{x}-\boldsymbol{\mu}_0\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_0\right)^{\mathrm{T}}+\sum_{\boldsymbol{x} \in X_1}\left(\boldsymbol{x}-\boldsymbol{\mu}_1\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_1\right)^{\mathrm{T}} \end{aligned}$

类间散度矩阵:
$\mathbf{S}_b=\left(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1\right)\left(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1\right)^{\mathrm{T}}$

5 多分类学习

多分类学习的基本思路是拆解法，将多分类任务拆解为若干个二分类任务求解。先对问题进行拆分，然后为拆出的每个二分类任务求解。在测试时，对这些分类器的预测结果进行集成来获得最终的多分类结果。
最经典的拆分策略有：一对一（OVO），一对其余(OVR)，多对多(MVM)。
OvO 将这 N个类别两两配对,从而产生 N(N-1)/2个二分类任务。
OvR 则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练 N个分类器。

在这里插入图片描述
OVO的存储开销和测试时间开销通常比OVR更大，但在训练时OvR 的每个分类器均使用全部训练样例,而Ov0的每个分类器仅用到两个类的样例,因此,在类别很多时,OvO的训练时间开销通常比 OvR 更小.至于预测性能,则取决于具体的数据分布,在多数情形下两者差不多。
MVM 是每次将若干个类作为正类,若干个其他类作为反类。

纠错输出码（一种MVM技术）步骤
1.编码:对N个类别做M次划分,每次划分将一部分类别划为正类，一部分划为反类,从而形成一个二分类训练集;这样一共产生 M个训练集,可训练出M个分类器
2.解码:M个分类器分别对测试样本进行预测,这些预测标记组成一个编码.将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果.

6 类别不平衡问题

类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。
基本策略——再缩放
现有技术大体上有三类做法:第一类是直接对训练集里的反类样例进行“欠采样”,即去除些反例使得正、反例数目接近,然后再进行学习;第二类是对训练集里的正类样例进行“过采样”,即增加一些正例使得正、反例数目接近,然后再进行学习;第三类则是直接基于原始训练集进行学习，但在用训练好的分类器进行预测时,嵌入到其决策过程中,称为“阈值移动"。