【机器学习算法导论】监督式学习算法

撕得失败的标签

已于 2024-05-29 17:07:05 修改

阅读量1k

点赞数 31

分类专栏：机器学习文章标签：机器学习监督式机器学习算法导论

于 2024-03-19 09:17:43 首次发布

本文链接：https://blog.csdn.net/qq_61828116/article/details/136829524

版权

机器学习专栏收录该内容

7 篇文章 2 订阅

订阅专栏

第二章监督式学习算法

监督学习框架

$\sim \Rho$ （ $\Rho$ 是未知的）； $\sim D，y \sim D_x；y = f(x)$

对于数据 $\{ (x_1, y_1),(x_2, y_2),\cdots,(x_m, y_m) \}$ ，从中学习一个函数 $g:x\to y$
$g = L e a r nin g A l g or i t hm (D)$

$\in \mathcal H$ 称为假设空间或函数空间；
函数空间类型包括线性函数空间、多项式函数空间、核函数、神经网络等。

基本假设

数据特征不是无规律出现的，它们服从一定的概率分布！
数据的标签也不是无规律生成的，而是服从由数据特征决定的概率分布！

期望损失

评价 $g$ 的效果：损失函数 $\to R$
$L(y,g(x))=\begin{cases} (y-g(x))^2 \\ \prod(y \neq g(x)) \end{cases}$

$\forall h \in H， \forall(x,y)\in \Rho， L(y,h(x))$
$h^* = argminR(h) ~~~ h \in H$

给定样本空间 $x$ ，特征分布 $D$ ，标签分布 $D_\mathrm{x}$ 以及损失函数 $\ell$ 。对任意模型 h，定义：
$R(h)=\mathbb{E}_{\mathbf{x}\sim\mathcal{D},\mathbf{y}\sim\mathcal{D}_x}[\ell(\mathbf{y},h(\mathbf{x}))]$
为模型 h 的期望损失或者风险 (risk)。通过最小化风险来学习一个最优的预测函数：

$h^{\star}=\arg\min R(h):=\mathbb{E}_{\mathbf{x}\sim\mathcal{D},y\sim\mathcal{D}_{x})\sim\mathcal{P}}[\ell(y,h(\mathbf{x}))]$
贝叶斯风险：

$R^{\star}=R(h^{\star})$

但是分布 $P$ 是未知的，上述最优化问题是无法求解的。

经验风险最小化

经验风险最小化 (ERM: Emperical Risk Minimization) 是一种一般性的算法结构：

给定一个包含 n 个独立同分布的样本的训练数据集 $\mathcal{D}=\{(\mathbf{x_1},y_1),(\mathbf{x_2},y_2),\cdots,(\mathbf{x_n},y_n)\}$ 。在数据集中所有数据的平均损失称为 f 的经验损失，记为

$R_n(f)=\frac1n\sum_{i=1}^n\ell(y_i,f(\mathbf{x_i}))$

经验风险最小化通过最小化 $R_n(t)$ 来学习一个预测函数：

$f_n\in\arg\min_{f\in\mathcal{F}}R_n(f)$

即用 $D$ 的经验分布替代 $\Rho$ 可计算出经验风险最小化 $ERM$
$h_{min} = argminR_n(h)$

Hoeffding 不等式

经验损失与期望损失是有区别的。但是当训练数据规模足够大时，Hoeffding 不等式保证了经验损失能够良好的近似期望损失。

定理

令 $X_1,X_2,\cdots,X_n$ 为服从独立同分布的随机变量，来自于对称伯努利分布。

即 $P(X_i=+1)=P(X_i=-1)=1/2$ 。则有：
$\mathbb{P}(\frac1n\sum_{i=1}^nX_i\geq\epsilon)\leq e^{-\frac{n\epsilon^2}2}$

证明

根据 Markov 不等式，我们有
$\begin{aligned} \mathbb{P}({\frac{1}{n}}\sum_{i=1}^{n}X_{i}\geq\epsilon)& =\mathbb{P}(e^{\lambda\sum_{i=1}^nX_i}\geq e^{n\lambda\epsilon})\leq\frac{\mathbb{E}[e^{\lambda\sum_{i=1}^nX_i}]}{e^{n\lambda\epsilon}} \\ &=e^{-n\lambda\epsilon}(\Pi_{i=1}^n\mathbb{E}[e^{\lambda X_i}])=e^{-n\lambda\epsilon+n\Psi(\lambda)} \end{aligned}$
其中 $\Psi(\lambda)=\log\mathbb{E}[e^{\lambda X}]=\log(\frac{e^\lambda+e^{-\lambda}}2)\leq\frac{\lambda^2}2$ 因此，有

$\mathbb{P}(\frac1n\sum_{i=1}^nX_i\geq\epsilon)\leq\inf_{\lambda>0}\mathrm{e}^{-n\lambda\epsilon+n\Psi(\lambda)}=\inf_{\lambda>0}\mathrm{e}^{-n(\lambda\epsilon-\lambda^2/2)}=\mathrm{e}^{-n\epsilon^2/2}$

泛化性

泛化性指的是模型在面对未见过的数据时的表现能力。一个具有良好泛化性的模型能够对新数据做出准确的预测或者良好的分类。
泛化性是评价一个模型的重要指标，因为我们通常希望模型能够适用于多样化的数据，而不仅仅是在训练时所使用的数据集上表现良好。

经验损失	测试损失	模型效果
较小	较小	好
较小	较大	过拟合
较大	较大	欠拟合

欠拟合

通常出现在以下情况下：

模型复杂度过低：如果模型过于简单，无法捕获数据中的复杂关系和模式，就会导致欠拟合。例如，使用线性模型拟合非线性数据。
训练数据量不足：当训练数据过少时，模型可能无法学习到数据的真实分布，从而导致欠拟合。这通常发生在数据集规模较小或数据样本不够代表性的情况下。
特征选择不当：如果选择的特征不足以描述数据中的变化和关系，也会导致欠拟合。这可能是由于特征提取不充分或特征选择不合适导致的。

解决欠拟合问题的方法包括：

增加模型复杂度：使用更复杂的模型，如增加神经网络的层数或节点数，以提高模型的表达能力。
增加特征：添加更多的特征，或者对现有特征进行变换、组合，以提供更多的信息给模型。
减小正则化：如果使用了正则化项来缓解过拟合，可以考虑减小正则化的程度，以提高模型的拟合能力。
增加训练数据：提供更多的训练数据可以帮助模型更好地学习数据的分布和模式。
改进特征工程：仔细选择和设计特征，确保特征能够充分描述数据的变化和关系。

过拟合

过拟合是指模型在训练时过于关注训练数据的细节和噪声，从而导致在未见过的数据上表现不佳的现象。换句话说，过拟合的模型在训练数据上表现很好，但在新数据上表现较差。
过拟合通常是由于模型复杂度过高或训练数据量不足所导致的。过于复杂的模型可以记住训练数据中的噪声和特殊情况，而不是学习到一般性的模式。

为了提高模型的泛化能力并避免过拟合，研究者会采取多种策略，如：

数据增强：通过扩大训练数据集，增加数据的多样性，使模型能够学习到更普遍的特征。
交叉验证：使用不同的数据子集来训练和验证模型，以评估模型在不同数据集上的表现。
正则化：向模型中添加惩罚项，以减少模型复杂度，防止模型学习数据中的噪声。
简化模型：选择更简单的模型或减少模型参数的数量，以避免模型过度复杂化
早停法（Early Stopping）：在训练过程中，一旦发现验证误差开始增加，就停止训练，以防止模型在训练数据上过度拟合。

奥卡姆剃刀原则

（奥卡姆剃刀：如无必要，勿增实体）

“奥卡姆剃刀” （Occam’s razor）是一种常用的、自然科学研究中最基本的原则，即 “若有多个假设与观察一致,则选最简单的那个”。如果采用这个原则，并且假设我们认为“更平滑”意味着“更简单”。

注意：奥卡姆剃刀并非唯一可行的原则。退一步说，即便假定我们是奥卡姆剃刀的铁杆拥龛，也需注意到，奥卡姆剃刀本身存在不同的诠释，使用奥卡姆剃刀原则并不平凡。

正则化方法

考虑一个参数模型 $g(\mathbf w; \mathbf x)$
$\begin{aligned}\min_{\mathbf{w}\in\mathbb{R}^p}\frac1n\sum_{i=1}^n\ell(y_i,\mathbf{g}(\mathbf{w},\mathbf{x_i}))+\lambda\Vert\mathbf{w}\Vert_2^2&&\text{L2 正则化}\end{aligned}$

$\begin{aligned}\min_{\mathbf{w}\in\mathbb{R}^p}\frac1n\sum_{i=1}^n\ell(y_i,\mathbf{g}(\mathbf{w},\mathbf{x_i}))+\lambda\Vert\mathbf{w}\Vert_1&&\text{L1 正则化}\end{aligned}$

模型评估的标准

预测性能指标：分为训练集的预测性能和测试集的预测性能
- 回归算法评价指标：决定系数 ( $R^2)$ 、均方误差、平均绝对误差等。
- 分类算法评价指标：准确率、召回率、F-1 得分、 ROC 曲线、AUC 等
时间复杂度：模型求解所需要的时间。和数据规模、特征维度、模型、优化算法、容忍误差、代码等有关
空间复杂度：数据、参数、中间变量所需要的存
储空间规模。

回归与分类

监督学习 $\{(x_i,y_i)\}^n_{i=1}$
- $x_i = (x_{i1},\cdots,x_{ip})$ 表示第 $i$ 个样本的特征向量，相对容易获得
- $y$ 表示第 $i$ 个样本的标签值，相对难获得，需要根据特征来预测
回归与分类问题的区别主要在标签的取值范围
- 回归问题：最小化平方损失学习预测函数
  
  $min\frac{1}{n}\sum^n_{i=1}(y_i-f(x_i;w))^2$
- 分类问题：最小化交叉熵损失
  
  $min\frac{1}{n}\sum^n_{i=1}−(y_i log(p_i) + (1 − y_i)log(1 − p_i))$
给定数据集，求解优化问题，学习预测函数
- 回归问题： $\hat y = f(x; \hat w)$
- 分类问题： $\hat p = σ(g(x; \hat w)$

回归算法评价指标

绝对误差

平均绝对值误差：

$\hat y) = \frac{1}{n}\sum^n_{i=1} (|y_i − \hat y_i |)$
均方误差：

$\hat y) = \frac{1}{n}\sum^n_{i=1}(y_i − \hat y_i)^2$
均方根误差：

$\hat y) = \sqrt{\frac{1}{n}\sum^n_{i=1}(y^i − \hat y_i)^2}$

相对误差

平均绝对百分比误差：

$\hat y) = \frac{1}{n}\sum^n_{i=1}\frac{(|y_i − \hat y_i |)}{max(\epsilon, |y_i|)}$
可解释变异：越大越好

$\begin{aligned} EV(y, \hat y) & = 1 − \frac{Var(y − \hat y)} {Var(y)} \\ & = 1 - \frac{\sum[(y_i − \hat y_i)-\frac{1}{n}\sum(y_i-\hat y_i)]^2} {\sum(y_i-\bar y_i)^2} \\ & = 1 - \frac{\sum(e_i − \bar e_i)^2}{\sum(y_i-\bar y_i)^2} \\ & = 1 - \frac{\sum e_i^2}{\sum(y_i-\bar y_i)^2} \\ & = R^2(y,\hat y) \end{aligned}$
决定系数：越大越好
$R^2 (y, \hat y) = 1 − \frac{\sum^n_{i=1}(y_i − \hat y_i)^2} {\sum^n_{i=1}(y_i − \bar y_i)^2}$

相应的回归模型预测误差可以写成：
$∑^n_{i=1} (y_i − \bar y)^2$

$\begin{aligned} SST & = {\sum^n_{i=1}}(y_i − \hat y_i + \hat y_i − \bar y)^2 \\ & = {\sum^n_{i=1}}[(y_i − \hat y_i)^2 + 2(y_i − \hat y_i)(\hat y_i − \bar y) + (\hat y_i − \bar y)^2 ] \\ & = {\sum^n_{i=1}} (y_i − \hat y_i)^2 + {\sum^n_{i=1}} (\hat y_i − \bar y)^2 + 2{\sum^n_{i=1}}(y_i − \hat y_i)(\hat y_i − \bar y) \\ & = {\sum^n_{i=1}} (y_i − \hat y_i)^2 + {\sum^n_{i=1}} (\hat y_i − \bar y)^2 \\ & = SSE + SSR \end{aligned}$

计算 ${\sum^n_{i=1}} (y_i − \hat y_i)(\hat y_i − \bar y)$

$\begin{aligned} & ~~~~~{\sum^n_{i=1}} (y_i − \hat y_i)(\hat y_i − \bar y) \\ & = {\sum^n_{i=1}} (y_i − \hat y_i)\hat y - {\sum^n_{i=1}} (y_i − \hat y_i) \bar y \\ & = {\sum^n_{i=1}} (y_i − \hat y_i)\hat y \\ & = \begin{pmatrix} y_1-\hat y_1 & \cdots & y_n-\hat y_n \end{pmatrix} \begin{pmatrix} \hat y_1 \\ \vdots \\ \hat y_2 \\ \end{pmatrix} \\ & = (y-\hat y)^T \hat y \end{aligned}$

替换 $\hat y = Hy$ ， $H$ 为帽子矩阵
$y-Hy)^THy = y^T(E-H)^THy$

分类算法评价指标

True Positive(TP)： $\hat y = 1$

False Negative(FN)： $\hat y = 0$

False Positive(FP)： $\hat y = 1$

True Negative(TN)： $\hat y = 0$

混淆矩阵 (`Confusion matrix`)：

$TP + FN = P, FP + TN = N$

	$\hat y=1$	$\hat y=0$
$y = 1$	$TP = 4$	$FN = 1$	$P = 5$
$y = 0$	$FP = 2$	$TN = 3$	$N = 5$

${\Large \frac{TP}{TP + FN}}, TNR = {\Large \frac{TN} {TN + FP}}$

	$\hat y=1$	$\hat y=0$
$y = 1$	$TPR=\large \frac{4}{5}$	$FNR=\large \frac{1}{5}$	$P = 5$
$y = 0$	$FPR=\large \frac{2}{5}$	$TNR=\large \frac{3}{5}$	$N = 5$

准确率 (`Accuracy`):

$\frac{TP + TN} {TP + FN + FP + TN} = \frac{TP + TN} {N + P}$

分类错误率 (`Classification error`):

$\begin{aligned} Classification error & = 1 − Accuracy \\\\ & = \frac{FN + FP} {P + N} \end{aligned}$

召回率 (`Recall`)

也称为查全率或真阳性率 (True Positive Rate)，
$\frac{TP} {TP + FN}$

精确率 (`Precision`)

也称为查准率
$\frac{TP} {TP + FP}$

ROC 曲线

ROC 曲线提供了一个直观的方式来比较不同分类模型的性能。曲线越靠近左上角，说明模型的分类性能越好。

改变阈值 $δ$ 的值，可以得到不同的混淆矩阵， $FPR$ 和 $TPR$ 也会随之变化：
$\begin{array}{|c|c|c|} \hline \text { 阈值 } & \text { FPR } & \text { TPR } \\ \hline 0.1 & 1 & 1 \\ \hline 0.2 & 4 / 5 & 1 \\ \hline 0.3 & 3 / 5 & 1 \\ \hline 0.4 & 3 / 5 & 4 / 5 \\ \hline 0.5 & 2 / 5 & 4 / 5 \\ \hline 0.6 & 2 / 5 & 3 / 5 \\ \hline 0.7 & 1 / 5 & 3 / 5 \\ \hline 0.8 & 0 & 2 / 5 \\ \hline 0.9 & 0 & 1 / 5 \\ \hline 1.0 & 0 & 0 \\ \hline \end{array}$
以 $FPR$ 为横坐标， $TPR$ 为纵坐标画出来的曲线，即为 ROC(Receive Operating Characteristic) 曲线。

AUC

AUC（Area Under the Curve）是 ROC 曲线下的面积，它是评估二元分类模型性能的一个重要指标。AUC 提供了一个介于 0 和 1 之间的数值，用于量化模型区分正类和负类的能力。AUC 的值越接近 1，模型的分类性能越好；AUC 为 0.5 时，表示模型的分类能力与随机猜测相当。

数据集拆分

留出法

留出法 (Hold-out) 直接将数据集 $D$ 划分成 3 个互斥的集合，其中一个用作训练集 $S$ ，一个作为验证集 $V$ ，一个作为测试集 $\mathrm{T}$ 。适合于样本规模较大的情形。

各数据集解释
- 训练集 (training set)：用来训练拟合一个模型 (预先设定超参数值)；
- 验证集 (validation set)：不是必须的，可以用来帮助选择超参数等；
- 测试集 (test set)：评估最终所选择的模型的测试误差。
注意事项：
- 训练/验证/测试集的划分需要尽可能的保持数据分布的一致性；
- 由于数据集划分的随机性，使得单次使用留出法得到的估计结果往往不够可靠稳定，在具体应用时，需要进行多次随机划分，多次重复进行试验评估后取平均值作为留出法的评估结果
- 常见的做法是使用 $\frac{2}{3} \sim \frac{4}{5}$ 的样本作为训练集，其他样本作为测试集。

交叉验证法

交叉验证法 (cross validation) 是指随机的将整个数据集随机均匀的划分成 $\mathrm{k}$ 个互斥的子集。
$D=D_1 \cup D_2 \cup D_3 \cup \cdots \cup D_k$
在这里插入图片描述

每次选择 1 个子集作为测试集，其余 $k - 1$ 个子集作为训练集，训练机器学习模型 $f_i$
将在训练集上得到的模型在测试集上测试，得到评估结果 $E_i$ 重复上述步骤 $\mathrm{k}$ 次, $\mathrm{k}$ 轮的性能指标的均值 $E=\frac{1}{k} \sum_{i=1}^k E_i$ 作为最终的评价结果
称为 $k$ 折交叉验证 ( k-fold cross validation )。 $k$ 值常取为 5 或者 10
$k$ 折交叉验证法通常要随机使用不同的划分重复 $p$ 次。称为 $p$ 次 $k$ 折交叉验证。

留一法

假定原数据集 D 中包含 $\mathrm{n}$ 个样本，令 $k = n$ 得到的 $n$ 折交叉验证法即为留一法 (Leave-one-out: LOO)。
留一法不受随机样本划分方式的影响，因而不需要重复多次。
留一法的缺陷在于，当数据集比较大时，训练 $n$ 个模型的计算开销也更大。

自助法

自助采样法 (bootstrap sampling) 来得到训练子集。

在给定包含 $\mathrm m$ 个样本的数据集，我们随机选择一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本能有机会被抽中 (即有放回的抽样)。
重复上述过程 $\mathrm m$ 次，得到一个包含 $\mathrm m$ 个样本的子集，有一部分原始样本出现在改子集中，有一部分未出现
一个样本在 $\mathrm m$ 次抽样中始终未被抽中的概率为

$\lim_{m\to\infty}(1-\frac{1}{m})^m=\frac{1}{e}\approx0.368$

假设生成了 $\mathrm k$ 个子集，一个样本同时不出现在这 $\mathrm k$ 个子集中的概率为：

$\begin{aligned}(0.368)^k\approx0\end{aligned}$

撕得失败的标签

关注

31
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
【机器学习算法导论】监督式学习算法

第二章监督式学习算法监督学习框架基本假设期望损失经验风险最小化Hoeffding 不等式定理证明泛化性欠拟合过拟合奥卡姆剃刀原则正则化方法模型评估的标准回归与分类回归算法评价指标绝对误差相对误差分类算法评价指标混淆矩阵 (`Confusion matrix`)：准确率 (`Accuracy`):分类错误率 (`Classification error`):召回率 (`Recall`)精确率 (`Precision`)ROC 曲线AUC数据集拆分留出法
复制链接

扫一扫