机器学习第3章（线性模型）

最新推荐文章于 2022-01-17 22:46:53 发布

罗辑罗辑

最新推荐文章于 2022-01-17 22:46:53 发布

阅读量304

点赞数

分类专栏：机器学习文章标签：机器学习数据挖掘

本文链接：https://blog.csdn.net/jinhualun911/article/details/108757751

版权

机器学习专栏收录该内容

25 篇文章 9 订阅

订阅专栏

假设 $x=(x_{1},x_{2},x_{3},...,x_{d})$ ，d表示x的维度（属性）， $x_{i}$ 表示x在第i个属性上的值。线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，即：

$f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b$ 公式（1）

向量形式为：

$f(x)=W^{T}x+b$ 公式（2）

其中W=（w1,w2,w3....wd），w和b习得之后，模型就确定了。

w直观的表达了各个属性在预测中的重要性，因此线性模型具有很好的可解释性（comprehensibility）。

3.1线性回归

给定数据集 $D={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})}$ ，其中 $x_{i}=(x_{i1};x_{i2};...;x_{id}),y_{i}\in R$ 。线性回归（linear regression）试图习得一个线性模型，用以尽可能准确的预测实值输出标记。

线性回归试图学得：

$f(x_{i})=wx_{i}+b$ ，使得 $f(x_{i})\simeq y_{i}$ 。公式（3）

如何确定w与b?关键之处在于确定f(xi)与yi之间的误差，常用的有均方误差，通过使均方误差最小化，使习得的w，b更加逼近真实情况。

$(w^{*},b^{*})=argmin\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2}=argmin\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}$ 公式（4）

均方的几何意义在于它对应了欧几里得距离，基于均方误差最小化来进行模型求解的方法称为最小二乘法（least square method）。在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧式距离之和最小。

求解w和b使 $E_(w,b)=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}$ 最小化的过程，称为线性回归模型的最小二乘参数估计（parameter estimation）。将E（w,b）分别求导可得：

$\frac{\partial E(_{w,b})}{\partial w}=2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i})$ 公式（5）

$\frac{\partial E(_{w,b})}{\partial b}=2(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))$ 公式（6）

令公式(5)与公式（6）为0可得w,b最优解的闭环解

$w=\frac{\sum_{i=1}^{m}y_{i}-\bar{x}}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m}x_{i})^{2}}$ 公式（7）

$b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})$ 公式（8）

3.3 对数几率回归

3.4 线性判别分析

线性判别分析（linear discriminant analysis,LDA）的思想如下：（1）给定训练样例集，设法将样例投影到一条直线上，使得同类样本的投影点尽可能相近、异类样例的投影点尽可能远离。（2）在对新样例进行分类时，将其投影到同样的这条直线上，（3）根据投影点的位置来判定新样本的类别。

LDA最大化目标： $J=\frac{w^{T}S_{b}w}{w^{T}S_{w}w}$ 公式（9）

3.5 多分类学习

考虑N个类别C1,C2,C3...CN，多分类学习的基本思想是拆解法，即将多分类任务拆分为若干个二分类任务求解。（1）先对问题进行拆分；（2）为拆分出的每个二分类任务训练一个分类器；（3）在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。

一般的拆分策略分为3类：一对一（one vs one OvO），一对其余（one vs rest,OvR），多对多（Many vs Many，MvM）。

给定数据集 $D={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})}$ ， $y_{i}\in \left \{ C_{1},C_{2},...,C_{N} \right \}$ 。OvO将这N个类别两两配对，从而产生N(N-1)/2个分类任务，例如OvO将为区分类别 $C_{i}$ 和 $C_{j}$ 训练一个分类器，该分类器把D中的 $C_{i}$ 类样例作为正例， $C_{j}$ 类作为反例。在测试阶段，新样本将同时提交给所有分类器，于是会得到N(N-1)/2个分类结果，最终的分类结果可通过投票产生：即把预测得最多的类别作为最终分类结果。

OvR是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。在测试时若仅有一个分类器预测为正例，则对应的类别标签标记为最终结果，若有多个分类器预测为正例，则考虑各分类器的预测置信度，选择置信度最大的类别标记作为分类结果。

MvM是每次将若干个类作为正例，若干个其他类作为反例。MvM的正反例构造有特殊的设计，常用的MvM技术有ECOC（error correcting output codes）。

3.6类别不平衡问题

类别不平衡（class-imbalance）是指分类任务中不同类别的训练样例数目差别很大的情况。

训练集是真实样本总体的无偏采样这个假设在现实生活中往往并不成立。针对这个问题，现有技术大概分为3类：1.直接对训练集里的反例样本进行“欠采样（undersampling）”，即去除一些反例使得正、反例数目接近，然后再进行学习；2.对训练集里的正样例进行“过采样（oversampling）”，即增加一些正例使得正、反例数目接近，然后再进行学习；3.直接基于原始训练集进行学习，但在训练好的分类器进行预测时，采用阈值移动的方法。