（学习笔记）机器学习入门及支持向量机SVM、贝叶斯分类器学习

最新推荐文章于 2022-12-10 15:08:35 发布

sup_sup

最新推荐文章于 2022-12-10 15:08:35 发布

阅读量2.3k

点赞数 4

分类专栏：机器学习文章标签：机器学习支持向量机SVM 朴素贝叶斯

本文链接：https://blog.csdn.net/weixin_38257309/article/details/86674689

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一章绪论

1.1 基本术语

一组记录的集合称为一个数据集；
每条记录是关于一个事件或对象的描述，称为示例（或样本）；
反映事件或对象在某方便的表现或性质的事项，称为属性（或特征），其值称为属性值；
属性张成的空间称为属性空间（或样本空间、输入空间）；
根据训练数据是否拥有标记信息，可将学习任务分为监督学习和无监督学习：
1. ）监督学习：分类和回归
2. ）无监督学习：聚类

1.2 假设空间

归纳和演绎是科学推理的两大基本手段：
1. ）归纳：从特殊到一般的“泛化”过程；
2. ）演绎：从一般到特殊的“特化”过程。
存在着一个与训练集一致的“假设集合”称为“版本空间”。

1.3 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好称为归纳偏好（或偏好）。
学习算法自身的归纳偏好与问题是否相配往往会起到决定性的作用。

第二章模型评估与选择

2.1经验误差与过拟合

通常把分类错误的样本数占样本总数的样本比例称为错误率: $\large E=\frac{a}{m}$ a:错误样本，m：总样本
精度 = 1 - 错误率 . 即精度 = $\large 1-\frac{a}{m}$
学习器的实际的预测输出与样本的真实输出之间的差异称为误差
学习器在训练集上的误差称为训练误差（或经验误差），在新样本上的误差称为泛化误差。

2.2 评估方法

将数据集D拆分为训练集S和测试集T的常用方法：

1.留出法

1)、直接将数据集D划分为两个互斥的集合，训练集S和测试集T:

$\large D=S\cup D$ $\large S\cap T=\varnothing$

2)、训练测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差，而对最终结果产生影响；

3)、一般要采用若干次随机划分、重复进行试验评估后取平均值作为留出法的评估结果；

4)、训练样本 S : 测试样本T 通常在2:1 ~ 4:1之间。

2.交叉验证法

1)、将数据集D划分k个大小相似的互斥子集，每个子集都尽可能保持数据集分布的一致性；然后用k-1个子集的并集作为训练集，余下的一个子集作为测试集，从而可获得k次训练和测试，最终返回k个结果的均值。

2)、评估结果的保真性和稳定性很大程度取决于k值，故又称k折交叉验证，k最常用的取值是10.

3)、若数据集D中包含m个样本，令k=m, 则得到了交叉验证法的一个特例：留一法

留一法：优点：不受随机样本划分方式的影响，结果比较准确；

缺点：数据集比较大时，计算开销难以忍受

3.自助法

1)、给定包含m个样本的数据集D，对数据集D又放回的采样m次（每次从D中挑选一个样本），得到训练集D'，不出现在D'中的数据作为测试集（D\D'）；

2)、实际模型与预期模型都使用m个训练样本；

3)、约有1/3的样本没在训练集出现，用作训练集；

（样本在采样中始终不被采到的概率是 $\large (1-\frac{1}{m})^{m}$ ，取极限：

$\large \lim_{m\rightarrow \infty }(1-\frac{1}{m})^{m}\rightarrow \frac{1}{e}\approx 0.368$

4)、自助法在数据集较小，难以有效划分训练/测试集时很有用；

5)、自助法能从初始数据集中产生多个不同的数据集，这对集成学习等方法有很大的好处；

6)、自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差，在数据集足够时，留出法和交叉验证法更常用。

2.3性能度量

1.性能度量反映了任务需求，在对比不同模型的能力，使用不同的性能度量往往会导致不同的评判结果。

2.回归任务最常用的性能度量是均方误差：

$\large E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2}$

对于数据分布D和概率密度函数p(·)，均方误差可描述为：

$\large E(f;D)=\int_{x\sim d}{}(f(x)-y)^{2}p(x)dx$

3.错误率与精度（准确率）是分类任务中最常用的两种性能变量，即适用于二分类任务，也适用于多分类任务；

错误率是分类错误的样本数占样本总数的比例：

$\large E(f;D)=\frac{1}{m}\sum_{i=1}^{m}\prod (f(x_{i})\neq y_{i})$

精度是分类正确的样本数占样本总数的比例：

$\large acc(f;D)={\frac{1}{m}}\sum_{i=1}^{m}\prod (f(x_{i})=y_{i})$

$\large = 1-E(f;D)$

对于数据分布D和概率密度函数p(·),错误率与精度：

$\large E(f;D)=\int_{x\sim D}\prod (f(x)\neq y)p(x)dx$

$\large acc(f;D)=\int_{x\sim D}\prod (f(x)=y)p(x)dx=1-E(f;D)$

4.查准率、查全率与F1

真实情况	预测结果
真实情况	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

查准率：

$\large P=\frac{TP}{TP+FP}$

查全率：

$\large R=\frac{TP}{TP+FN}$

查准率和查全率是一对矛盾的度量；查准率高时，查全率往往会会偏低；查准率低时，查全率往往会高

5. 以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称P-R曲线（或PR曲线）或P-R图（PR图）。若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”，则后者性能优于前者；若两个学习器的P-R曲线发生交叉，则使用平衡点（BEP），即查准率=查全率时的取值，值大的更优。

6. F1度量：

$\large F1=\frac{2\times P\times R}{m+TP-TN}$

(m表示样例总数)

若给查准率设置不同权重，可得到F1度量的一般形式Fβ：

$\large F_{\beta }=\frac{1+\beta ^{2}\times P\times R}{(\beta ^{2}\times P)+R}$

β > 0，且当β = 1时，退化成标准的F1；

当β > 1时，查全率有更大影响；

当β < 1时，查准率有更大影响。

8.ROC与AUC

受试者工作特征ROC绘制过程：根据分类器的概率预测结果对样例排序；并按此顺序依次选择不同的“截断点”逐个把样例作为正例进行预测，每次计算出当前分类器的“真正率”和“假正率”，然后分别以它们为纵轴、横轴绘图，即可得到ROC曲线。

真正率： $\large TPR={\frac{TP}{TP+FN}}$

假正率： $\large FPR=\frac{FN}{TN+FP}$

1)、若某个分类器的ROC曲线被另一个分类器的曲线完全“包住”，则后者性能优于前者；

2)、若曲线有交叉，根据ROC曲线下面积的大小进行比较，即AUC：

$\large AUC=\frac{{\sum_{i=1}^{n_{0}}}{r_{i}}-n_{0}\times (n_{0}+1)/2}{n_{0}\times n_{1}}$

a.n0，n1是正例和反例的个数；

b.ri是第i个反例（-）在整个测试样例中的排序；

c.当所有的反例都排在正例的前面时，AUC值达到最大1。

2.4比较检验

1.定义：先试用某种实验评估方法测得学习器的某个性能度量结果，然后对这些结果进行比较

2.关于性能比较：

1)、测试性能并不等于泛化性能

2)、测试性能会随着测试集的变化而变化

3)、很多机器学习算法本身有一定的随机性

3.常用的比较方法：

1)、交叉验证t检验（成对双边t检验）：若k折交叉验证法得到的测试错误率分别为 $\large \epsilon _{1}^{A},\epsilon _{2}^{A},...,\epsilon _{k}^{A}$ 和 $\large \epsilon _{1}^{B},\epsilon _{2}^{B},...,\epsilon _{k}^{B}$ ,其中 $\large \epsilon _{i}^{A}$ 和 $\large \epsilon _{i}^{B}$ 是在第i折训练/测试集得到的结果。（在一个数据集上比较两个分类器的性能）

求差： $\large \Delta _{i}=\epsilon _{i}^{A}-\epsilon _{i}^{B}$

均值： $\large \mu =\frac{1}{k}\sum_{i=1}^{k}\Delta _{i}$

方差： $\large \delta = \frac{1}{k-1}\sum_{i=1}^{k}(\Delta _{i}-\mu )$

t统计量： $\large \tau _{t}=\left | \frac{\mu \sqrt{k}}{\delta } \right |$ 服从自由度为k-1的t分布；

a.若t值 < 临界值（ $\large t_{\frac{\alpha }2{}},k-1$ ）,两个分类器的性能没有显著差别；

b.若t值 > 临界值,两个分类器的性能有显著差别,平均错误率较小的分类器性能较优。

2)、Friedman检验与Nemenyi后续检验（在一组数据集上比较多个分类器的性能）

在N个数据集上比较K个算法：使用留出法或交叉验证法得到每个算法在每个数据集上的测试结果，然后在每个数据集上，根据测试性能由好到坏排序，并赋予序值1,2,3....;若算法的测试性能相同，则平均序值。令 $\large r_{i}$ 表示第i个算法的平均序值：

$\large \tau _{x^{2}}=\frac{k-1}{k}\cdot\frac{12N}{k^{2}-1}\sum_{i=1}^{k}(r_{i}-\frac{k+1}{2})^{2}$

$\large =\frac{12N}{k(k+1)}(\sum_{i=1}^{k}r_{i}^{2}-\frac{k(k+1)^{2}}{4})$

当k和N都比较大时，服从自由度为k-1的 $\large \chi ^{2}$ 分布

$\large \tau _{F}={\frac{(N-1)\tau _{x^{2}}}{N(k-1)-\tau _{x^{2}}}}$

$\large \tau _{F}$ 服从自由度为k-1和(k-1)/(N-1)的F分布

a.若 $\large \tau _{F}$ < 临界值，则所有比较的算法是相同的；

b.若 $\large \tau _{F}$ > 临界值，则所有比较的算法是显著不同的，则需要进行后续检验，常用的有Nemenyi后续检验。

计算平均序值差别的临界阈值：

$\large CD=\sqrt[q_{\alpha }]{\frac{k(k+1)}{6N}}$

a.如果两个算法的平均序值之差 < 临界阈值，则两个算法的性能在相应的置信度下没有显著差别；

b.反之则有显著差别；

c.平均序值较小的算法的性能较优。

第三章线性模型

3.1基本形式

1.给定由d个属性描述的示例 $\large x=(x_{1},x_{2},...,x_{d})$ ,其中 $\large x_{i}$ 是 $\large x$ 在第 $\large i$ 个属性上的取值，线性模型试图学得一个通过属性的线性组合来进行预测函数，即：

$\large f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b$

一般的向量形势： $\large f(x)=w^{T}+b$

3.2线性回归

1.给定数据集 $\large D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{i},y_{i}),...,(x_{m},y_{m}) \right \}$ ,其中 $\large x_{i}=(x_{i1},x_{i2},...,x_{id})$ , $\large y_{i}\epsilon \mathbb{R}$

线性回归试图学得： $\large f(x_{i})=wx_{i}+b$ ，使得 $\large f(x_{i})\simeq y_{i}$ ；

2.最小二乘法：基于预测值和真实值的均方差最小化的方法来估计参数w和b，需要优化的方程：

$\large (w^{*},b^{*})=\binom{\arg \min}{(w,b)}\sum_{i=1}^{n}(f(x_{i})-y_{i})^{2}$

$\large =\binom{\arg \min}{(w,b)}\sum_{i=1}^{n}(y_{i}-wx_{i}-b)^{2}$

最小化均方误差：

$\large E(w,b)=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}$

分别对w,b求导：

$\large \frac{\partial E(w,b)}{\partial b}=2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i})$ ①

$\large \frac{\partial E(w,b)}{\partial b}=2(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))$ ②

令式①和②为零可得到w和b最优解的闭式解：

$\large w=\frac{\sum_{i=1}^{m}y_{i}(x_{i}-\bar{x})}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m}x_{i})^{2}}$

$\large b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})$

3.广义线性模型：即将线性回归的预测值，再做一个非线性的函数变化，去逼近真实值得到的模型称为广义线性回归：

$\large y=g^{-1}(w^{T}x+b)$

其中g(·)称为联系函数，理论上g函数可以使任意函数。当g函数被指为指数函数时，得到的函数模型称为对数线性回归。

$\large y=e^{w^{T}x+b}$

将真实的对数作为线性模型逼近的目标，即：

$\large \ln y=w^{T}+b$

3.3 对数几率回归

1.对分类任务，在广义性规模中：只需找一个单调可微函数将分类任务的真实标记y与线性回归模型预测值练习起来

2.对二分类任务，输出标记y∈{0,1},二线性回归模型产生的预测值z=W^T+b是实值，所以需要将z转化为0/1值，这就需要只用单位阶跃函数：

$\large y=\left\{\begin{matrix} 0,z<0\\ 0.5,z=0\\ 1,z>0 \end{matrix}\right.$

0表示判为反例，0.5表示可任意判别，1表示判为正例

因为单位阶跃函数不连，所以不能直接作为g函数，因此需要一个单调可微的替代函数，即对数几率函数（logistic function）：

$\large y=\frac{1}{1+e^{-Z}}$

它将z值转化为一个接近0或1的y值，并且将其输出值在z=0附近变化很陡，对应的模型称为对数几率回归（logistic regression）。虽然名字是回归，却是一种分类学习方法。

优点：①可以直接对分类可能性进行预测，将y视为样本x作为正例的概率；

②无需事先假设数据分布，这样就避免了假设分布不准确所带来的问题；

③是任意阶可导的凸函数，可以直接应用现有数值优化算法取得最优解。

将对数几率函数作为g(·)代入得：

$\large y=\frac{1}{1+e^{-(\omega ^{T}x+b)}}$

输出y视为样本x属于正例的概率：

$\large p(y=1\mid x)=\frac{1}{1+e^{\omega ^{T}x+b}}$

输出y视为样本x属于反例的概率：

$\large p(y=0\mid x)=\frac{1}{1+e^{\omega ^{T}x+b}}$

给定数据集 $\large {(x_{i},y_{i})}_{i=1}^{m}$ ，对数回归模型最大化“对数似然”：

$\large \psi (w,b)=\sum_{i=1}^{m}\ln p(y_{i}\mid x_{i;w,b})$

3.4 多分类学习

1.主要方法：①直接将二分类学习推广到多分类；

②利用二分类学习器完成多分类任务。（√）

2.考虑N个类别C1,C2,...,Cn，多分类学习的基本思路是“拆解法”，即将多分类任务拆解成若干个二分类任务求解；常用的方法有：一对一（One vs One,OvO）,一对其余（One vs Rest，OvR）,多对多（Many vs Many, MvM）。

3.一对一：一对一拆分方法在训练阶段将原始的N个类别两两配对，学习N(N-1)/2个分类器，最终结果通过投票方式产生：即把被预测得最多的类别作为最终分类结果。

4.一对其余：在训练阶段分别将原始的N个类别中某一例作为正例，其余类作为反例，学习N个二分类器。首先将待测样本提交给所有分类器预测，得到N个分类结果：①若仅有一个分类器预测为正类，则对应的类别标记作为最终分类结果；②若有多个分类器测为正类，则选择置信度最大的类别标记作为分类结果。

5.二者比较：

一对一：①训练N(N-1)/2个分类器存储和测试时间大；

②训练只用两个类的样例，训练时间短。

一对其余：①训练N个分类器，存储开销和测试时间短；

②训练用到全部训练样例，训练时间长。

预测性能取决于具体数据分布，多数情况下两者差不多。

6.多对多：若干类作为正类若为个其他类作为反类，最常用的MvM技术：纠错输出码（ECOC）。

7.纠错输出码：将编码的思想引入类别拆分，并尽可能解码中具有容错性，主要分为两步；

编码：对N个类别做M次随机划分，每次划分将一部分类别划分正类，其余类划分为反类；→构建M个二分类器，得到每个类标记，长度为M的编码。

解码：测试样本交给M个分类器预测→长度为M的预测编码。

以某种距离最小的编码所对应的类别作为预测结果。

①ECOC对分类器错误有一定容忍和修正能力，编码越长，纠错能力越强。

②对同等长度的编码，理论上来说，任意两个类别之间的编码距离越远，则纠错能力越强。

第四章支持向量机

4.1线性支持向量

给定训练样本集

$\large D=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \right \}$

线性分类器决策边界的线性方程：

$\large \omega ^{T}x+b=0$

其中N=(ω1;ω2;...;ωd)为法向量，决定了超平面的方向；b为位移项，决定了超平面与原点之间的距离。

假设决策边界能将训练样本正确分类，即对于任意样本点(xi,yi)∈D:

$\large \left\{\begin{matrix} y_{i}=+1\Rightarrow \omega ^{T}x_{i}+b>0\\ y_{i}=-1\Rightarrow \omega ^{T}x_{i}+b<0 \end{matrix}\right.$

通过调整决策边界的参数w和b，总可以得到：

$\large \left\{\begin{matrix} \omega ^{T}x_{i}+b\geq +1,y_{i}=+1\\ \omega ^{T}x_{i}+b\leq -1,y_{i}=-1 \end{matrix}\right.$

距离超平面最近的这几个训练样本点使等号成立，被称为“支持向量”两个异类支持向量到超平面的距离之和被称为“间隔”记为：

$\large \gamma =\frac{2}{\begin{Vmatrix} \omega \end{Vmatrix}}$

欲找到具有“最大间隔”的划分超平面，就要找到能满足约束的参数w和b，使γ最大，即：

线性支持向量机的学习问题是一个凸二次优化问题。

求解方法：①用现成的优化计算包求解；

②用拉格朗日乘子法求解。（✔）

4.2 拉格朗日乘子法

1.引入拉格朗日乘子法αi≥0得到拉格朗日函数：

$\large L(w,b,\alpha )=\frac{1}{2}\left\| \omega \right \|^{2}+\sum_{i=1}^{m}\alpha _{i}(1-y_{i}(\omega ^{T}x_{i}+b))$ ①

2.令L(w,b,α)对w,和b的偏导为零可得：

$\large \left\{\begin{matrix} \omega =\sum_{i=1}^{m}\alpha _{i}y_{i}x_{i}\\ 0=\sum_{i=1}^{m}\alpha _{i}y_{i} \end{matrix}\right.$ ②,③

3.将②代入①，得到对偶优化问题：

$\large L(\alpha )=\sum_{i=1}^m\alpha _{i}-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}x_{i}^{T}x_{j}$

因为对偶优化问题的二次项前面有个负号，而原始线性支持向量机学习的优化问题的二次项前面没有负号，这说明原来要优化的最小问题已经转化成了对偶优化问题。即：

再对上述最大问题稍作变形，就可等价为下面的最小化问题：

再结合拉格朗日函数的约束条件，就可得到原始问题的最终优化问题：

解出α后，求出w和b即可得到线性SVM的最终模型：

$\large f(x)=\omega ^{T}+b=\sum_{i=1}^{n}\alpha _{i}y_{i}x_{i}^{T}+b$

因为式*中有不等式约束，因此上述过程需要满足KKT条件，即：

$\large \left\{\begin{matrix} \alpha _{i\geq 0}\\ y_{i}f(x_{i}-1\geq 0)\\ \alpha _{i}(y_{i}f(x_{i})-1)=0 \end{matrix}\right.$ i

KKT条件表明，除非训练样本满足yif(xi)=1,否则必有拉格朗日乘子法αi=0,那些α>0的训练样本都落在最大边缘的边界bi1和bi2上，都是支持向量。可见，最终支持向量模型的参数w和b仅仅依赖于这些支持向量。

由于对偶优化问题是一个二次规划问题，可使用通用的二次规划算法来求解；然而，该问题的规模正比于训练样本的数目，对于大型数据集，会造成很大的开销。为了避开这个障碍，人们通过利用问题本身的特性，提出很多高效的算法，如SMO序列最小化优化算法。

SMO的基本思路是先固定αi之外的所有参数，然后求αi的极值，由于存在约束：

$\large \sum_{i=1}^{m}\alpha _{i}y_{i}=0$

若固定αi之外的其他变量，则αi可由其他变量导出。于是，SMO每次选择两个变量αi和αj并固定其他参数，这样，在参数初始化后，SMO不断执行如下两个步骤直至收敛：

①选取一对需更新的变量αi和αj；

②固定αi和αj以外的参数，求解式（*）获得更新后的αi和αj；

6.3核函数

在前面讨论中，我们假设训练样本是线性可分的，即存在一个划分超平面能将训练样本正确分类。然而现实任务中，原始样本空间也许并不存在一个能正确划分两类样本的超平面。如异或问题。

对这样的问题，可将样本从原始空间，使得样本在这个特性空间内线性可分。如果原始空间是有限维，即属性数有限，那么一定存在一个高纬特征空间使样本可分。

令φ(x)表示将x映射后的特征向量，于是特征空间中划分超平面所对应的模型可表示为：

$\large f(x)=\omega ^{T}\phi(x)+b$

w和b为模型参数。

求解上面的优化问题，涉及到计算 $\large \phi(x_{i})^{T}\phi (x_{j})$ ，这是样本xi与xj映射到特征空间之后的内积。由于特征空间维数可能很高，甚至可能是无穷维，因此直接计算 $\large \phi(x_{i})^{T}\phi (x_{j})$ 通常是非常困难的。为了避开，一个基本的想法是：不显式地设计映射 φ(·)，而是设计一个核函数：

$\large k(x_{i},x_{j})=\phi (x_{i})^{T}\phi (x_{j})$

xi和xj在高维特征空间的内积等于它们在原始样本空间中通过核函数K(·,·)计算的结果。有了这样的核函数，我们就不必直接去计算高维甚至无穷维特征空间中的内积了。

定理（核函数）：令Χ为输入空间，K(·,·)是定义在Χ * Χ上的对称函数，则k是核函数当且仅当对于数据D={x1,x2,...,xm},“核矩阵”K总是半正定的：

$\large K=\begin{Bmatrix} k(x_{1},y_{1}) & \cdots & k(x_{1},y_{1}) &\cdots &k(x_{1},y_{1}) \\ \vdots &\ddots &\vdots &\ddots &\vdots \\ k(x_{1},y_{1})&\cdots &k(x_{1},y_{1}) &\cdots &k(x_{1},y_{1}) \\ \vdots &\ddots &\vdots &\ddots &\vdots \\ k(x_{1},y_{1})&\cdots &k(x_{1},y_{1}) &\cdots & k(x_{1},y_{1}) \end{Bmatrix}$