哈工大机器学习复习笔记（一）

Gravitas

已于 2023-02-03 13:33:37 修改

阅读量3.3k

点赞数 2

分类专栏：机器学习文章标签：哈工大期末复习

于 2021-11-29 14:34:18 首次发布

本文链接：https://blog.csdn.net/Gravitas/article/details/121609345

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本篇文章是在参考西瓜书、PPT课件、网络上相关博客等资料的基础上整理出的机器学习复习笔记，希望能给大家的机器学习复习提供帮助。这篇笔记只是复习的一个参考，大家一定要结合书本、PPT来进行复习，有些公式的推导最好能够自己演算一遍。由于作者水平有限，笔记中难免有些差错，欢迎大家评论留言。
完整版跳转

1. 概述

1.1 学习模型的分类

1.1.1 生成模型

通过数据学习联合概率分布 $P(\vec{x},y)$ 然后求出条件概率分布 $P(y|\vec{x})$ 作为预测的模型，即通过下式计算条件概率。
$P(y|\vec{x})=\frac{P(\vec{x},y)}{P(\vec{x})}$
例：朴素贝叶斯、GMM

1.1.2 判别模型

直接学习决策函数 $f(\vec{x})$ 或者条件概率分布 $P(y|\vec{x})$ 。
例：决策树、SVM、线性回归、逻辑回归、kNN

1.2 估计参数的方法

1.2.1 极大似然估计（MLE）

已知训练集 $\mathcal{D}=\{(\vec{x}_1,y_1),(\vec{x}_2,y_2),\dots,(\vec{x}_m,y_m)\}$ ，假设每个样本独立同分布，则出现这种训练集的概率为 $P(\mathcal{D}|\theta)=\prod_{i=1}^m{P(\tilde{y}_i,\vec{x}_i|\theta)}$ ，我们的目标是找 $\theta$ 使得 $P(\mathcal{D}|\theta)$ 最大，即
$\hat{\theta}=\arg \max_{\theta}P(\mathcal{D}|\theta)$

1.2.2 最大后验估计（MAP）

假设已知训练集 $\mathcal{D}=\{(\vec{x}_1,y_1),(\vec{x}_2,y_2),\dots,(\vec{x}_m,y_m)\}$ 和参数 $\theta$ 的先验分布 $P(\theta)$ ，MAP选择在这种条件下概率最大的 $\theta$ ，即
$\hat{\theta}=\arg\max_{\theta}P(\theta|\mathcal{D}) = \arg\max_{\theta}{\frac{P(\mathcal{D}|\theta)P(\theta)}{P\mathcal(D)}}$

1.2.3 算法

最小二乘法、梯度下降法、共轭梯度法

2. 决策树

决策树是一种基本的分类和回归方法。课程中主要利用决策树对样本进行分类。决策树，顾名思义，有着树形结构，它由结点和有向边组成，其中

内部节点表示一个特征或者属性
叶子结点表示一种分类
有向边代表一种划分规则

优点：可读性强、分类速度快
决策树的学习通常包括三个步骤，分别是特征选择、决策树生成和决策树剪枝。

2.1 生成算法

生成算法可分为以下3步：

选择根节点，将所有数据放在根节点;
选择一个最优特征，并根据这个特征将训练数据分割成子集;
递归执行上一步，直至所有数据子集都基本被正确分类，或者没有合适的特征为止.

递归返回的三种情况:

当前结点包含的样本全属于同一类别，无需划分;
当前属性集为空，或是所有样本在所有属性上取值相同，无法划分（标记为叶节点，将类别设置为该点所含样本最多的类别，可看做是当前节点的后验分布）;
当前结点包含的样本集合为空，不能划分（标记为叶节点，类别设置为该节点父节点所含样本数最多的类别）.

2.2 特征选择

希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的“纯度”尽可能高。

切分方案

对于类别变量：可以考虑多路切分，一个取值对应一路切分。也可以考虑两路切分，此时将类别分成两个子集，此时需要找到最优切分方案。
对于连续变量：可以考虑先离散化（例如聚类等手段），转为类别变量；也可以考虑二值决策（小于V的放在一路，大于等于V的放另一路），不过计算量可能很大。

熵

假设我们要给一个数据集（属性是类别变量）编码。回顾哈夫曼编码，出现频率越多的字符会得到尽量短的编码，在这里亦然。从信息论的角度，我们给出现概率为 $p$ 的属性，分配 $log_2(1/p)$ 的编码长度。最后来计算任意一条数据的期望编码长度：
$H(x)=-\sum_i{P(X=i) \log_2{P(X=i)}}$
我们称这个期望编码长度为这个信源的熵，记作 $H (x)$ . 显然，若信源（这个数据集）只会产生一种属性，则熵为 0；若信源可以等概率地产生两种属性，则熵为 1。
于是我们认为，熵可以衡量一个数据集的信息“纯度”。信息越纯，熵就越低；信息越混杂，熵就越高。

条件熵

特定条件熵：是指 $X$ 在给定 $Y = v$ 这个条件时的熵 $H (X ∣ Y = v)$
$H(X|Y=v)=-\sum_i{P(X=i|Y=v)\log_2{P(X=i|Y=v)}}$
条件熵：是指 $X$ 在给定 $Y$ 条件下的熵 $H (X ∣ Y)$
$H(X|Y)=\sum_{v\in var(Y)}{P(Y=v)H(X|Y=v)}$
互信息：
$I (X; Y) = H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X) = H (X) + H (Y) - H (X, Y)$

相对熵（KL散度）

相对熵用于描述两个分布之间的差异，假设 $P$ 代表真实分布， $Q$ 代表预测分布，那么这两个分布之间就有一个“相似度”，那么就可以描述它们之间的差异的大小，这就是相对熵。计算公式如下。
$D_{KL}(p||q)=\sum_{i=1}^n{p(x_i)\log_2\frac{p(x_i)}{q(x_i)}}$
显然， $D_{KL}(p||q) \neq D_{KL}(q||p)$ .

交叉熵

在机器学习中，评估一个模型的好坏，只需要计算KL散度即可，而对KL散度公式做一下变形，我们发现，只需要关注交叉熵即可：
$\begin{aligned} D_{KL}(p||q) &=\sum_{i=1}^n{p(x_i)\log_2 p(x_i)}-\sum_{i=1}^n{p(x_i)\log_2 q(x_i)}\\ &= -H(p(x))+[-\sum_{i=1}^n{p(x_i)\log_2 q(x_i)}] \end{aligned}$
等式的前一部分恰巧就是 $p$ 的熵，这部分是不会变化的，而等式的后一部分，就是交叉熵
$H(p,q)=-\sum_{i=1}^n{p(x_i)\log_2 q(x_i)}$

信息增益

定义信息增益
$Gain=Entropy(parent)-\sum_{child}\frac{N_{child}}{N_{parent}}Entropy(child)$
信息增益实际上反映了目标类变量与属性A变量在D（样本集）上的互信息，即
$Gain(\mathcal{D},A)=H(\mathcal{D})-H(\mathcal{D}|A)$
特点（ID3以信息增益为准则来选择划分属性）：

信息增益大的特征具有更强的分类能力（如果某个特征的信息增益为0，则表示其没有什么分类能力）
缺点：倾向于选择具有切分分支多的属性，易导致生成的决策树不具有泛化能力

增益率

$Gain\_ratio(\mathcal{D},A)=\frac{Gain(\mathcal{D},A)}{IV(A)}$
其中
$IV(A)=-\sum_{v=1}^V{\frac{|\mathcal{D}^v|}{|\mathcal{D}|}}\log_2\frac{|\mathcal{D}^v|}{|\mathcal{D}|}$
称为属性 $A$ 的“固有值”。属性 $A$ 的可能取值数目越多，则 $I V (A)$ 的值通常也会越大。

特点：

本质上是对信息增益乘以加权系数，当特征A取值集合较大时加权系数较小，表示抑制该特征，反之亦成立
缺点：对可取值数目较少的属性有所偏好

C4.5算法先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率较高的，即综合考虑信息增益和增益率。

2.3 剪枝算法

Occam’s 剃刀：选择适合训练集合数据的最简单假设

2.3.1 预剪枝

在算法变成一棵完全成熟的树之前停止它，节点的典型停止情况:

如果所有实例都属于同一个类，则停止
如果所有属性值都相同，则停止

更多的限制条件:

如果实例数量少于用户指定的阈值，则停止；
如果实例的类分布与可用的特征无关，停止(例如，使用$ $\chi^2$ 检验)；
如果扩展当前节点不能改善混杂度量(例如，基尼系数或信息增益)，停止。

特点：

不仅降低了过拟合的风险，还显著减少了决策树的训练时间；
有些划分虽然当前无法带来泛化性能的提升，甚至可能导致泛化性能暂时下降，但在其基础上进行的后续划分却有可能导致性能显著提高。因此，预剪枝基于“贪心”本质禁止这些分支展开，可能存在欠拟合的风险。

2.3.2 后剪枝

使决策树完整生长，以自底向上的方式修剪决策树的节点，如果修剪后泛化误差有所改善，则用叶节点替换子树，叶节点的类标签由子树中的大多数实例类确定，可以使用MDL (Minimum Description Length)进行后剪枝。

特点：

后剪枝决策树通常比预剪枝决策树保留了更多的分支，欠拟合风险较小，且泛化性能往往优于预剪枝决策树；
训练时间开销比未剪枝决策树和预剪枝决策树要大得多。

2.4 缺失值处理

给定训练集 $\mathcal{D}$ 和属性 $A$ ，令 $\tilde{\mathcal{D}}$ 表示 $\mathcal{D}$ 中 $A$ 属性没有缺失值的样本子集， $\tilde{\mathcal{D}^i}$ 表示 $\tilde{\mathcal{D}}$ 中 $A$ 属性取值为 $a_i$ 的样本子集， $\tilde{\mathcal{D}_k}$ 表示 $\tilde{\mathcal{D}}$ 中第 $k$ 类的样本子集。为每个样本赋予一个权重 $w_{\vec{x}}$ ，并定义
$\rho=\frac{\sum_{\vec{x}\in \tilde{\mathcal{D}}}{w_{\vec{x}}}}{\sum_{\vec{x}\in \mathcal{D}}{w_{\vec{x}}}}\\ \tilde{p}_k=\frac{\sum_{\vec{x}\in \tilde{\mathcal{D}}_k}{w_{\vec{x}}}}{\sum_{\vec{x}\in \tilde{\mathcal{D}}}{w_{\vec{x}}}}\\\tilde{r}_v=\frac{\sum_{\vec{x}\in \tilde{\mathcal{D}}^v}{w_{\vec{x}}}}{\sum_{\vec{x}\in \tilde{\mathcal{D}}}{w_{\vec{x}}}}$
直观地看， $\rho$ 表示无缺失值样本所占的比例， $\tilde{p}_k$ 表示无缺失值样本中第 $k$ 类所占的比例， $\tilde{r}_v$ 则表示无缺失值样本中在属性 $A$ 上取值为 $A^v$ 的样本所占的比例。
信息增益公式的推广
$\begin{aligned} Gain(\mathcal{D},A)&=\rho \times Gain(\tilde{\mathcal{D}},A)\\ & =\rho \times (Ent(\tilde{\mathcal{D}})-\sum_{v=1}^V {\tilde{r}_v}Ent(\tilde{\mathcal{D}}^v)) \end{aligned}$

如果 $\vec{x}$ 在属性 $A$ 上的取值已知，则正常划分且保持权重 $w_{\vec{x}}$ ；
如果 $\vec{x}$ 在属性 $A$ 上的取值缺失，则将该样本同时划入所有子结点，且样本权值在与属性 $A^v$ 对应的子结点中调整为 $\tilde{r}_v \cdot w_{\vec{x}}$ .

3. 曲线拟合（Lab1）

3.1 线性回归和最小二乘法

给定数据集 $\mathcal{D}=\{(\vec{x}_1,y_1),(\vec{x}_2,y_2),\dots,(\vec{x}_m,y_m)\}$ ，其中 $\vec{x}_i$ 为 $d$ 维向量。线性回归模型试图学得
$f(\vec{x}_i)=w^T\vec{x}_i+b\backsimeq y_i$
为便于讨论，我们把 $b$ 看做是 $w_0$ ，进而吸收进 $w$ 向量中。相应的，把数据集 $\mathcal{D}$ 表示为一个 $\times (d+1)$ 大小的矩阵 $X$ ，其中每行对应于一个样本，把每行的第一个元素设为1，其余的 $d$ 个元素对应于样本的 $d$ 个属性值，即
$\begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1d} \\ 1 & x_{21} & x_{22} & \cdots & x_{2d} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{m1} & x_{m2} & \cdots & x_{md} \end{bmatrix}$
定义误差函数
$E(w)=(y-Xw)^T(y-Xw)$
利用最小二乘法，我们需要求解 $w^*$ 使得上式最小，即
$w^*=\arg \min_w E(w)$
先将 $E (w)$ 展开，得到
$\begin{aligned} E(w)&=(y^T-w^TX^T)(y-Xw)\\ &=y^Ty-y^TXw-w^TX^Ty+w^TX^TXw\\ &=y^Ty-2w^TX^Ty+w^TX^TXw \end{aligned}$
对 $w$ 求导得
$\frac{\partial E(w)}{\partial w}=2X^TXw-2X^Ty$
令偏导数等于0，可得
$X^TXw=X^Ty$
如果 $X^TX)^{-1}$ 存在，那么
$w^*=(X^TX)^{-1}X^Ty$
注： $w^TAw$ 对 $w$ 求偏导通常应该等于 $Aw+A^Tw$ ，但由于这里 $A=X^TX$ 是对称阵，故
$\frac{\partial (w^TX^TXw)}{\partial w}=2X^TXw$
如果 $X^TX)^{-1}$ 不存在，那么 $X^TXw=X^Ty$ 的解不唯一，选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入正则化项，即倾向于选择 $∣∣ w ∣∣$ 较小的解。

3.2 多项式拟合

本质上等价于线性拟合，只不过线性拟合的输入 $X$ 变为
$\begin{bmatrix} 1 & x_1 & x_1^2 & \cdots & x_1^m \\ 1 & x_2 & x_2^2 & \cdots & x_2^m \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_N & x_N^2 & \cdots & x_N^m \end{bmatrix}$
其余求解步骤和线性回归相似。

3.3 过拟合

我们刚刚的拟合过程，只对数据负责，不对分布负责，亦即不对未来的数据负责。最小二乘法只保证了“对于这些给定的点而言，我拟合出的超平面是最好的”；没有保证对于其他的点，也能与实际情况一致。此时，模型只注重于提升“在当前数据集下的性能”，亦即把训练误差降得很低；但没有考虑泛化能力，从而测试误差会很高。
我们在多项式拟合的过程中观测到，产生过拟合时， $w$ 的各个参数往往具有大的绝对值。于是我们考虑能不能在训练误差较小的同时，让 $w$ 尽可能小。办法就是往误差函数里面加惩罚项（亦称正则项）： $w$ 的参数越大，惩罚项越大，会增加误差。显然，当误差最小时，应该训练误差很小、惩罚项也很小。于是误差式（在最小二乘误差的基础上）改为
$\tilde{E}(w) = E(w)+\frac {\lambda}2||w||^2$

当惩罚项比重较大时会降低模型复杂度，有可能会出现欠拟合的情况；
当惩罚项比重适当时模型复杂度与问题匹配，能较好地拟合数据，并且有一定的泛化能力；
而当惩罚项比重较小时，会逐渐退化为原模型，这时有过拟合的风险。

4. 统计学习的建模工具

4.1 高斯分布

一维高斯分布
$p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}$
多维高斯分布
$p(x)=\frac{1}{\sqrt{(2\pi)^k|\Sigma|}}\exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}$

4.2 贝叶斯公式

$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
更一般的形式
$P(Y=y|X)=\frac{P(X|Y=y)P(Y=y)}{\sum_yP(X|Y=y)P(Y=y)}$

4.3 极大似然估计（MLE）

过拟合

在伯努利分布（Example 1）中，我们有
$\hat{\theta}^{head}=\frac{n^{head}}{n^{head}+n^{tail}}$
如果在训练集中，由于样本数量较少导致 $n^{head}=0$ ，那么就会有 $\hat{\theta}^{head}=0$ ，我们就会预测硬币正面朝上的概率为零，这显然是不合理的。

解决方案：Smoothing

上式可被修正为
$\hat{\theta}^{head}=\frac{n^{head}+n'}{n^{head}+n^{tail}+n'}$
其中 $n^{'}$ 是伪（虚拟）计数。

4.4 最大后验估计（MAP）

我们抛硬币10次，其中8次朝上，按照MLE的思路，这个硬币抛出正面朝上的概率就是0.8，然而实际生活中，我们不太会据此判断抛这个硬币八成正面朝上。这是因为我们见过的硬币都是比较均匀的，我们有“硬币一般是均匀的”这一个先验知识。
MLE的思想中，实际参数 $\theta$ 是一个定值，我们需要通过观测，来直接估计这个值，没有利用任何先验知识。而贝叶斯思想中， $\theta$ 是一个随机变量，不同的取值概率是不一样的，具体的概率分布是由我们依据经验来估计。比如我们可以估计，硬币“正面朝上”的概率服从以0.5为均值的正态分布。
最大后验方法(MAP)不是尝试最大化 $P(\mathcal{D}|\theta)$ ，而是尝试最大化 $P(\theta|\mathcal{D})$ . 也就是说，MLE是对于每一个 $\theta$ ，比较参数 $\theta$ 生成这个数据集的概率，是在 $\theta$ 指定的情况下求生成数据集 $\mathcal{D}$ 的概率；MAP是考虑在数据集已知的情况下， $\theta$ 最有可能的取值，是在数据集 $\mathcal{D}$ 给定的情况下，求 $\Theta=\theta$ 的概率。
假设已知训练集为 $\mathcal{D}$ ，参数 $\theta$ 的先验分布 $P(\theta)$ ，MAP选择在这种条件下概率最大的 $\theta$ ，即
$\hat{\theta}=\arg\max_{\theta}P(\theta|\mathcal{D}) = \arg\max_{\theta}{\frac{P(\mathcal{D}|\theta)P(\theta)}{P\mathcal(D)}}$
另外，我们注意到
$P(\theta|\mathcal{D}) = {\frac{P(\mathcal{D}|\theta)P(\theta)}{P\mathcal(D)}}\propto P(\mathcal{D}|\theta)P(\theta)$
因此最后的优化的式子变为
$\hat{\theta}= \arg\max_{\theta}{P(\mathcal{D}|\theta)P(\theta)}$

值得注意的是，当样本数量较少时，MAP会倾向于先验概率；而当样本数量较大时，先验概率起到的作用微乎其微，MAP受似然值主导。

两种参数估计方法的对比和缺点

对比

MLE中 $\theta$ 是一个未知的常数，需要从数据中进行估计；MAP中 $\theta$ 是一个随机变量，我们假设了它的先验分布
如果MAP中 $\theta$ 的先验服从均匀分布，则两种估计得到的结果相同
缺点
MLE：如果数据集太小容易过拟合
MAP：两个有着不同先验的人将会得到不同的估计

5. 贝叶斯判别

贝叶斯决策论，在分类任务中是在所有相关概率都已知的理想情形下，考虑如何基于这些概率和误判损失来选择最优的类别标记。

5.1 决策面推导

假设我们正在分类一个样本。对于每一个类，我们已知这个类生成这个样本的概率。那么现在想要判断某个样本 $x$ 出自哪个类别，只需要知道 $P (Y = i ∣ X = x)$ ，亦即
$P(Y=i|x)=\frac{P(x|Y=i)P(Y=i)}{P(x)}=\frac{\pi_ip_i(x)}{\sum_k\pi_kp_k(x)}=q_i(x)$
其中 $p_i(x)=P(x|Y=i)$ ， $p_i(x)$ 称为似然函数。
在执行判别时，分母显然是个定值，我们只需要判断分子的大小。也就是说，若 $\pi_ap_a(x)>\pi_bp_b(x)$ ，我们就判断 $a$ 类胜出。写成另一种形式，即
$l_{ab}=\frac{p_a(x)}{p_b(x)}>\frac{\pi_b}{\pi_a}$
上式中 $l_{ab}$ 称为似然比， $\frac{\pi_b}{\pi_a}=\theta_{ba}$ 称为判决阈值。这种判别方式就是贝叶斯判别。
与之等价地，实践上可以两边取对数，再比较。决策函数是：
$h(X)=-\ln p_1(X)+\ln p_2(X)>\ln \frac{\pi_1}{\pi_2}$
以二分类为例，如下图所示，两类分布均满足二维高斯分布

假设类别先验（class prior）如下
$P(Y=1)=\theta\\P(Y=-1)=1-\theta$
当每个类别均是高斯分布时，我们可以得到一维决策面（decision boundary）
$P(Y=1|X)=\frac{P(X|Y=1)P(Y=1)}{P(X)}=\frac{\theta \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma_1|^{\frac1{2}}}\exp\{-\frac1{2}(X-\mu_1)^T\Sigma_1^{-1}(X-\mu_1)\}}{P(X)}$ $P(Y=-1|X)=\frac{P(X|Y=-1)P(Y=-1)}{P(X)}=\frac{(1-\theta) \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma_2|^{\frac1{2}}}\exp\{-\frac1{2}(X-\mu_2)^T\Sigma_2^{-1}(X-\mu_2)\}}{P(X)}$
令 $P (Y = 1∣ X) / P (Y = - 1∣ X) = 1$ 有（决策面）
$\begin{aligned} 1&=\frac{\theta}{1-\theta}\sqrt{\frac{\Sigma_2}{\Sigma_1}}\exp\{\frac1{2}(X-\mu_2)^T\Sigma_2^{-1}(X-\mu_2)-\frac1{2}(X-\mu_1)^T\Sigma_1^{-1}(X-\mu_1)\}\\ &=\frac{\theta}{1-\theta}\sqrt{\frac{\Sigma_2}{\Sigma_1}}\exp\{\frac1{2}(X^T-\mu_2^T)\Sigma_2^{-1}(X-\mu_2)-\frac1{2}(X^T-\mu_1^T)\Sigma_1^{-1}(X-\mu_1)\} \end{aligned}$
两边取对数得
$\begin{aligned} 0&=\ln\frac{\theta}{1-\theta} + \ln \sqrt{\frac{\Sigma_2}{\Sigma_1}} + \frac1{2}[(X^T-\mu_2^T)\Sigma_2^{-1}(X-\mu_2)-(X^T-\mu_1^T)\Sigma_1^{-1}(X-\mu_1)]\\ &=\ln\frac{\theta}{1-\theta} + \ln \sqrt{\frac{\Sigma_2}{\Sigma_1}} + \frac1{2}[(X^T\Sigma_2^{-1}X-X^T\Sigma_2^{-1}\mu_2-\mu_2^T\Sigma_2^{-1}X+\mu_2^T\Sigma_2^{-1}\mu_2)\\&-(X^T\Sigma_1^{-1}X-X^T\Sigma_1^{-1}\mu_1-\mu_1^T\Sigma_1^{-1}X+\mu_1^T\Sigma_1^{-1}\mu_1)] \end{aligned}$
若 $\Sigma_1=\Sigma_2$ ，则
$\begin{aligned} 0&=\ln\frac{\theta}{1-\theta} + \frac1{2}[-2X^T\Sigma^{-1}\mu_2+\mu_2^T\Sigma_2^{-1}\mu_2+2X^T\Sigma^{-1}\mu_1-\mu_1^T\Sigma_1^{-1}\mu_1]\\ &=\ln\frac{\theta}{1-\theta} +X^T(\Sigma^{-1}\mu_1-\Sigma^{-1}\mu_2)+\frac12(\mu_2^T\Sigma^{-1}\mu_2-\mu_1^T\Sigma^{-1}\mu_1) \end{aligned}$
由此得到了一个关于 $X$ 的线性分类器，亦即分类面是一条直线（二维的情况）。

5.2 贝叶斯误差

首先定义
$p_1(X)=P(X|Y=1),p_2(X)=P(X|Y=-1)\\ q_1(X)=P(Y=1|X),q_2(X)=P(Y=-1|X)\\ \theta_1=\theta,\theta_2=1-\theta$
风险
$r(X)=\min[q_1(X),q_2(X)]$
则贝叶斯误差（风险的期望）
$\begin{aligned} \epsilon&=E(r(x))=\int r(x)p(x)dx\\ &=\int \min[q_1(x),q_2(x)]p(x)dx\\ &=\int \min[\frac{\theta_1p_1(x)}{p(x)},\frac{\theta_2p_2(x)}{p(x)}]p(x)dx\\ &=\int \min[\theta_1p_1(x),\theta_2p_2(x)]dx\\ &=\theta\int_{L_2}p_1(x)dx+(1-\theta)\int_{L_1}p_2(x)dx \end{aligned}$
用图例来表示

贝叶斯分类器是理论上最好的分类器，因为它最小化了分类错误的概率。
如上图所示，贝叶斯分类器选择 $x=x_0$ 作为决策面，这时风险的期望为 $\epsilon=S_A+S_B+S_C$ ；而如果选择其他决策面（例如 $x=\hat x$ ），则 $\epsilon'=S_A+S_B+S_C+S_D>\epsilon$ 。故贝叶斯分类器可以最小化风险的期望，从而使出错的概率最小。

2020年第二题

$Y$ 为类别（两类， $Y = 0$ 和 $Y = 1$ ）随机变量，将真实类为 $1$ 的样本判断为类 $0$ 造成的损失为 $a$ ，反之为 $b$ ，如下表所示。那么期望损失最小意义下的分类准则？并用图例说明。

Y	0	1
0	0	a
1	b	0

首先定义
$p_0(X)=P(X|Y=0),p_1(X)=P(X|Y=1)\\ q_0(X)=P(Y=0|X),q_1(X)=P(Y=1|X)\\ \theta_0=\theta,\theta_1=1-\theta$
根据题意，对风险做出定义
$\begin{aligned} r(X|Y=0)&=aP(Y=1|X)\\ r(X|Y=1)&=bP(Y=0|X)\\ \end{aligned}$
如果希望风险尽可能小，那么对于每个 $X$ ，我们都应该让它的风险尽量小，即选择 $r (X ∣ Y = 0)$ 和 $r (X ∣ Y = 1)$ 中的较小值。所以，在期望损失最小意义下，
$\begin{aligned} r(X)&=\min\{aP(Y=1|X),bP(Y=0|X)\}\\ &=\min\{aq_1(X),bq_0(X)\} \end{aligned}$
此时风险的期望
$\begin{aligned} \epsilon&=E(r(x))=\int r(x)p(x)dx\\ &=\int \min[aq_1(x),bq_0(x)]p(x)dx\\ &=\int \min[\frac{a\theta_1p_1(x)}{p(x)},\frac{b\theta_0p_0(x)}{p(x)}]p(x)dx\\ &=\int \min[a\theta_1p_1(x),b\theta_0p_0(x)]dx\\ &=a(1-\theta)\int_{L_0}p_1(x)dx+b\theta\int_{L_1}p_0(x)dx \end{aligned}$
用图例来表示

在期望损失最小意义下，决策面 $x=x_0$ 满足
$a\theta_1p_1(x_0)=b\theta_0p_0(x_0)$

当 $a\theta_1p_1(x_0)>b\theta_0p_0(x_0)$ 时，我们把 $x$ 分为第1类
当 $a\theta_1p_1(x_0)<b\theta_0p_0(x_0)$ 时，我们把 $x$ 分为第0类

如上图所示，我们选择 $x=x_0$ 作为决策面，这时风险的期望为 $\epsilon=S_A+S_B+S_C$ ；而如果选择其他决策面（例如 $x=\hat x$ ），则 $\epsilon'=S_A+S_B+S_C+S_D>\epsilon$ 。故我们的分类器可以最小化风险的期望，从而使出错的概率最小。
注：在贝叶斯判别中， $a = b = 1$ ，实际上是这一题的特殊情况。

5.3 KNN分类器

kNN的思想如下：对于一个个案，找到它附近的 $k$ 个个案（邻居），把这些邻居的类别的众数作为自己的类别。

kNN是比较接近于最优解的。有证据证明，渐近情况下，1-临近的分类器的误差小于2倍贝叶斯误差，不过这毕竟是理论结果。另外，若贝叶斯分类器误差为0，渐进地，k-临近的误差也会为0。

非参数估计

基本形式如下
$\hat p(X)=\frac1N\frac{k(X)}V$

其中， $k$ 为落在 $X$ 临近区域 $R$ 的数据点数量， $V$ 为区域 $R$ 的体积， $N$ 为样本总数。
对于kNN而言，我们对上式稍作修改，得到新的密度估计
$\hat p(X)=\frac1N\frac{k-1}{V(X)}$
基于这个估计，可以得到贝叶斯判别的决策函数为
$h(X)=-\ln \frac{p_1(X)}{p_2(X)} = -\ln \frac{(k_1-1)N_2V_2(X)}{(k_2-1)N_1V_1(X)} > \ln \frac{\pi_1}{\pi_2}$
对于Voting KNN分类器而言， $k_1+k_2=k$ ， $V_1=V_2$ ， $N_1=N_2$ 。

kNN是基于实例的学习。需要确定一个距离函数，需要确定超参数 $k$ ，然后kNN会根据手上已有的实例来进行分类。常用的距离函数有欧氏距离（L2范数）、曼哈顿距离（L1范数）、马氏距离等。
马氏距离的计算公式如下
$D(x,x^′)=\sqrt{\sum_iσ_i^2(x_i−x_i^′)^2} ⇔D(x,x^′)=\sqrt{(x−x^′)^TΣ(x−x^′)}$

总结

kNN不具有显式的学习过程，它直接基于实例对样本进行预测（惰性学习的代表）；
kNN是非参数学习算法，它没有任何参数需要学习（ $k$ 是超参数，不是需要学习的参数）；
当训练样本数量较大时kNN的精度较高；
当数据很大的情况下kNN的计算成本较高；
若某一个类的个案特别多，如果 $k$ 选得稍大了一点，就会导致错误分类（极端情况， $\to +\infty$ 时，则kNN会直接把样本分到具有样本数量最多的类别）。