算法--学习算法||机器学习--总论（持续更新）

Kevin404ar

已于 2024-01-21 01:41:16 修改

阅读量349

点赞数 8

分类专栏：算法机器学习文章标签：算法学习机器学习

于 2024-01-19 19:47:51 首次发布

本文链接：https://blog.csdn.net/abc31431415926/article/details/135427872

版权

算法同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

机器学习（ $M a c hin e L e a r nin g$ ， $M L$ ）

机器学习所研究的主要内容：关于在计算机上从数据中产生模型（ $m o d e l$ ）或学习器（ $l e a r nin g$ ）的算法，即学习算法（ $l e a r nin g$ $a l g or i t hm$ ）。

一，基本术语

1.数据集（ $d a t a$ $se t$ ） $D$

$D=\left\{\vec{x}_1,\vec{x}_2,…,\vec{x}_m\right\}$
其中 $\vec{x}_i$ 为数据集 $D$ 的第 $i$ 个示例（ $in s t an ce$ ）或样本（ $s am pl e$ ），是关于一个事件或对象的描述
$\vec{x}_i=（x_{i1};x_{i2};…;x_{id}）$
其中 $d$ 为样本 $\vec{x}_i$ 的维度（ $d im e n s i o na l i t y$ ），表示样本有 $d$ 个属性（ $a tt r ib u t e$ ）或特征（ $f e a t u re$ ），其反映事件或对象在某方面的表现或性质的事项； $x_{ij}$ 是 $\vec{x}_i$ 在第 $j$ 个属性上的属性值（ $a tt r ib u t e$ $v a l u e$ ）
属性值构成的空间为属性空间（ $a tt r ib u t e$ $s p a ce$ ）或样本空间（ $s am pl e$ $s p a ce$ ）或输入空间 $\chi$ ，可以认为 $\vec{x}_i$ 是d维样本空间 $\chi$ 的特征向量（ $f e a t u re$ $v ec t or$ ）， $\vec{x}_i\in\chi$

2.标记（ $l ab e l$ ） $y$

拥有了标记信息的示例，称为样例（ $e x am pl e$ ）； $（\vec{x}_i，y_i）$ 表示第 $i$ 个样例，其中 $y_i$ 为示例 $\vec{x}_i$ 的标记；所有标记的集合为标记空间（ $l ab e l$ $s p a ce$ ）或输出空间 $\gamma$ ， $y_i\in\gamma$

若将标记看作对象本身的一部分，则“样例”有时也称为“样本”

3.训练（ $t r ainin g$ ）

训练：从数据中学得模型的过程
训练示例（ $t r ain$ $in s t an ce$ ）或训练样本（ $t r ain$ $s am pl e$ ）
$\vec{x}_i或（\vec{x}_i，y_i）$
训练(数据)集（ $t r ain$ $se t$ ）：用于训练模型的数据集
$\left\{\vec{x}_1,\vec{x}_2,…,\vec{x}_m\right\}$
或 $\left\{(\vec{x}_1,y_1),(\vec{x}_2,y_2),…,(\vec{x}_m,y_m)\right\}$

4.监督学习（ $s u p er v i se d$ $l e a r nin g$ ）

监督学习是处理拥有标记信息的训练数据的学习任务。
预测（ $p re d i c t i o n$ ）任务是希望通过对这种训练集进行学习，建立一个从输入空间 $\chi$ 到输出空间 $\gamma$ 的映射 $f$ ： $\chi\mapsto\gamma$

学习任务——分类（ $c l a ss i f i c a t i o n$ ）：预测离散值
只有两个标记类别的学习任务为二分类（ $bina ry$ $c l a ss i f i c a t i o n$ ），其中一个类为正类（ $p os i t i v e$ $c l a ss$ ），另一个类为反类或负类（ $n e g a t i v e$ $c l a ss$ ）；常令 $\gamma=\left\{ -1,+1\right\}$ 或 $\left\{ 0,1\right\}$
有多个标记类别的学习任务为多分类（ $m u lt i$ - $c l a ss$ $c l a ss i f i c a t i o n$ ），常令 $|\gamma|>2$
学习任务——回归（ $re g ress i o n$ ）：预测连续值
对于回归问题，常令 $\gamma=R$ ， $R$ 为常数集

学得模型后，使用其进行预测的过程为测试（ $t es t in g$ ），被预测的样本为测试示例（ $t es t in g$ $in s t an ce$ ）或测试样本（ $t es t in g$ $s am pl e$ ）；即对于测试示例 $\vec{x}$ ，对于预测映射 $f$ ，可得到其预测标记 $y=f(\vec{x})$

5.无监督学习（ $u n s u p er v i se d$ $l e a r nin g$ ）

无监督学习是处理没有标记信息的训练数据的学习任务。

学习任务——聚类（ $c l u s t er in g$ ）：
将训练集中的样本分成若干组，每组称为一个簇（ $c l u s t er$ ），这些自动形成的簇可能对应一些潜在的概念划分；但这些概念事先是不知道的。
学习任务——降维

6.归纳学习（ $in d u c t i v e$ $l e a r nin g$ ）

学得模型适用于新样本的能力，称为泛化（ $g e n er a l i z a t i o n$ ）能力；具有强泛化能力的模型能很好地适用于整个样本空间。
归纳学习就是从样例中学习，是从特殊到一般的泛化过程，涵盖了监督学习，无监督学习等，也是学习算法的主要讨论对象。

“没有免费的午餐”定理（No Free Lunch Theorem，NFL定理）
脱离具体问题，空泛地谈论“什么学习算法更好”毫无意义，因为若考虑所有潜在的问题，则所有学习算法都一样好，期望性能相同。要谈论算法的相对优劣，必须要针对具体的学习问题；在某些问题上表现好的学习算法，在另些问题上却可能不尽如人意，学习算法自身的归纳偏好与问题是否相配，往往会起到决定性的作用

二，模型评估和选择

（一）概念

误差（ $error$ ）（误差期望）：学习器的实际预测输出与样本的真实输出之间的差异
训练误差（ $t r ainin g$ $error$ ）或经验误差（ $e m p i r i c a l$ $error$ ）：学习器在训练集上的误差
泛化误差（ $g e n er a l i z a t i o n$ $error$ ）：学习器在新样本上的误差
欠拟合（ $u n d er f i tt in g$ ）：模型过于简单，未能很好地捕捉数据的复杂性，导致在训练数据和新数据上表现都不佳
过拟合（ $o v er f i tt in g$ ）：模型过于复杂，过度拟合了训练数据，导致在新数据上表现不佳
模型选择（ $m o d e l$ $se l ec t i o n$ ）：从多个可用的模型中选择最合适的模型，以获得最佳的性能和泛化能力

（二）评估方法

测试集（ $t es t in g$ $se t$ ）：用于最终评估模型性能的数据集，测试学习器对新样本的判别能力
测试误差（ $t es t in g$ $error$ ）：测试集评估模型预测性能时所得到的模型预测与真实标签之间的差异或错误程度，期望作为泛化误差的近似

1.留出法（ $h o l d$ - $o u t$ ）

数据集 $D$ 划分为两个互斥的集合，即训练集 $S$ 和测试集 $T$ ， $\cup T$ ， $S\cap T=\varnothing$ ；在S上训练模型，用T评估其测试误差，作为对泛化误差的估计；在使用留出法时，一般要采用若干次随机划分，重复进行实验评估后取平均值作为留出法的评估结果。
训练集 $S$ 和测试集 $T$ 的占比都不易过大或过小，否则会降低评估结果的保真性（ $f i d e l i t y$ ）；常见做法是将大约 $\frac{2}{3}\sim\frac{4}{5}$ 的样本用于训练，剩余样本用于测试。

采样（ $s am pl in g$ ）：从一个总体或总体中的子集中选择出一部分观察样本
分层采样（ $s t r a t i f i e d$ $s am pl e$ ）：将总体划分为若干层，并从每一层中独立地进行采样，以保证样本更好地代表总体的不同层次特征
保真性（fidelity）：提供准确、可靠、真实反映原始数据或系统性能的能力

2.交叉验证法（cross validation）（ $k$ 折交叉验证法， $k$ - $f o l d$ $cross$ $v a l i d a t i o n$ ）

数据集 $D$ 划分为 $k$ 个大小相似的互斥子集，即
$D=D_1\cup D_2\cup…\cup D_k$ $D_i\cap D_j=\varnothing（i\neq j）$
每个子集 $D_i$ 都尽可能保持数据分布的一致性，即从 $D$ 中通过分层采样得到。然后每次用 $k - 1$ 个子集的并集作为训练集，另一个子集作为测试集；这样就可获得 $k$ 组训练/测试集，从而可进行 $k$ 次训练和测试，最终返回的是这 $k$ 个测试结果的均值
将数据集 $D$ 划分为 $k$ 个子集同样存在多种划分方式，为减少因样本划分不同而引入的差别， $k$ 折交叉验证通常要随机使用不同的划分重复 $p$ 次，最终的评估结果是这 $p$ 次 $k$ 折交叉验证结果的均值

$k$ 最常用的取值是10，其他常用值有5，20

3.留一法（ $l e a v e$ - $o n e$ - $o u t$ ， $L OO$ ）

假定数据集 $D$ 中包含 $m$ 个样本，留一法为 $k$ 折交叉验证法中 $k = m$ 的特例，即留一法只有一种划分方式
优点：留一法的训练集和初始数据集相比只少一个样本，故绝大多数情况下评估结果比较准确
缺点：数据集比较大时，计算开销过大

4.自助法（ $b oo t s t r a pp in g$ ）

自助采样法（ $b oo t s t r a p$ $s am pl in g$ ）（又称可重复采样，有放回采样）：假设初始数据集 $D$ 包含 $m$ 个样本，有放回地随机等概率进行 $m$ 次采样，直到新产生的采样数据集 $D^{'}$ 的大小与初始数据集相同。

若 $m$ 足够大，样本在 $m$ 次采样中始终不被采到的概率为
$p=lim_{m\rightarrow\infty} (1-\frac{1}{m})^m=1/e\approx0.368$

通过自助采样，初始数据集 $D$ 中约有 $36.8$ %的样本未出现在采样数据集 $D^{'}$ 中，于是我们可将 $D^{'}$ 用作训练集， $D$ \ $D^{'}$ 用作测试集。
这样实际评估的模型与期望评估的模型都使用m个训练样本，而仍有数据总量约 $1/3$ 的，没在训练集中出现的样本用于测试；这样的测试结果，也叫包外估计（ $o u t$ - $o f$ - $ba g$ $es t ima t e$ ）。

包外估计是一种用于评估随机森林等基于自助采样方法构建的模型性能的统计方法。在随机森林的训练过程中，由于自助采样法的有放回特性，部分样本可能在构建每棵树时没有被选中。这些未被选中的样本可以被用作包外样本（ $o u t$ - $o f$ - $ba g$ $s am pl es$ ）。
包外估计的原理如下：

对于每个样本，在构建随机森林时，大约有36.8%（约1/e）的样本没有被选中，这些样本被称为包外样本。
对于每个树，可以使用包外样本来评估该树的性能。使用包外样本进行预测，并将预测结果与真实标签进行比较，从而计算模型的误差。
对所有树的误差进行平均，得到包外估计的性能指标，例如准确率、F1得分等。
包外估计提供了对模型性能的无偏估计，因为它使用了未参与训练的样本进行评估。

包外估计是一种通过使用未被选中的样本来评估随机森林等模型性能的统计方法，可以提供无偏的模型性能估计，并且无需额外的验证集或交叉验证过程可以直接从训练过程中获得模型的性能估计；也使其成为一种简单而有效的模型选择和调参工具。

优点：适用于样本较少，难以有效划分训练/测试集的数据集；能从初始数据集中产生多个不同的训练集，有利于集成学习等方法
缺点：改变了初始数据集的分布，这会引入估计误差

5.调参

参数（ $p a r am e t er$ ）：模型中可调整的变量，控制着模型的行为和性能，可分为模型参数和超参数（ $h y p er p a r am e t er$ ）
深度学习–超参数
调参（ $p a r am e t er$ $t u nin g$ ）：尝试不同的超参数组合来优化模型的性能，以使模型更好地适应数据并提高其泛化能力
验证集（ $v a l i d a t i o n$ $se t$ ）：用于模型选择和调参的数据集。在训练过程中，通过在验证集上评估模型的性能，可以选择不同的超参数、模型结构等进行调整，以提高模型的泛化能力。

通过在验证集上计算误差，可以比较不同模型或超参数设置之间的性能差异，并选择表现最佳的模型。但验证误差本质上是用于模型选择和调整的一种评估指标，而不是一个直接度量模型在真实世界中的性能的指标。

在研究对比不同算法的泛化性能时，用测试集上的判别效果来估计模型在实际使用时的泛化能力，而把训练数据另外划分为训练集和验证集

（三）性能度量（ $p er f or man ce$ $m e a s u re$ ）

预测任务： $D=\left\{(\vec{x}_1,y_1),(\vec{x}_2,y_2),…,(\vec{x}_m,y_m)\right\}$ ，其中 $y_i$ 为示例 $\vec{x}_i$ 的真实标记。评估学习器 $f$ 的性能，即比较学习器预测结果 $f(\vec{x})$ 和真实标记 $y$ 。
回归任务：均方误差（ $m e an$ $s q u a re d$ $error$ ， $MSE$ ）
$E(f;D)=\frac{1}{m}\sum_{i=1}^m (f(\vec{x_i})-y_i)^2$
其中 $D$ 为定样例集，即离散数据
$E(f;\tilde{D})=\int_{\vec{x}\sim\tilde{D}}(f(\vec{x})-y)^2 p(\vec{x})d\vec{x}$
其中 $\tilde{D}$ 为数据分布，即连续数据， $p (*)$ 为概率密度函数
分类任务：如下

1.错误率和精度

错误率（ $error$ $r a t e$ ）：分类错误的样本数占样本总数的比例
$E(f;D)=\frac{1}{m}\sum_{i=1}^m\mathbb{I}(f(\vec{x}_i)\neq y_i)$
$E(f;\tilde{D})=\int_{\vec{x}\sim\tilde{D}}\mathbb{I}(f(\vec{x})\neq y)p(\vec{x})d\vec{x}$
精度（ $a cc u r a cy$ ）：分类正确的样本数占样本总数的比例
$acc(f;D)=\frac{1}{m}\sum_{i=1}^m\mathbb{I}(f(\vec{x}_i)=y_i)=1-E(f;D)$
$acc(f;\tilde{D})=\int_{\vec{x}\sim\tilde{D}}\mathbb{I}(f(\vec{x})=y)p(\vec{x})d\vec{x}=1-E(f;\tilde{D})$

$\mathbb{I}$ 为指示函数的数学符号表示，用来表示一个条件是否成立，如果条件成立，则返回 $1$ ；否则返回 $0$

2.查准率和查全率

查准率（ $P rec i s i o n$ ， $P$ ）（准确率）：在所有被分类为正例的样本中，实际上是正例的比例
查全率（ $R ec a ll$ ， $R$ ）（召回率，真正例率）：在所有实际为正例的样本中，被正确分类为正例的比例

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例（ $t r u e$ $p os i t i v e$ ， $TP$ ），假正例（ $f a l se$ $p os i t i v e$ ， $FP$ ），真反例（ $t r u e$ $n e g a t i v e$ ， $TN$ ），假反例（ $f a l se$ $n e g a t i v e$ ， $FN$ ），则分类结果的混淆矩阵（ $co n f u s i o n$ $ma t r i x$ ）如下：

真实情况	预测结果
真实情况	正例	反例
正	真正例(TP)	假反例(FN)
反	假正例(FP)	真反例(TN)

$P=\frac{TP}{TP+FP}，R=\frac{TP}{TP+FN}$

（1）平衡点（ $b re ak$ - $e v e n$ $p o in t$ ， $BEP$ ）

在这里插入图片描述
如上为 $P - R$ 曲线，平衡点（ $b re ak$ - $e v e n$ $p o in t$ ， $BEP$ ）为 $P = R$ 时的取值，即此时 $BEP = P = R$ ；一般可以认为，BEP越高，学习器性能越好。

（2） $F 1$ 度量

$F 1$ 是基于查准率和查全率的调和平均定义的， $m$ 为样例总数
$\frac{1}{F1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R})$
$F1=\frac{2PR}{P+R}=\frac{2TP}{m+TP-TN}$

（3） $F_\beta$ 度量

$F_\beta$ 是基于查准率和查全率的加权调和平均定义的，用以对查准率和查全率的不同偏好
$\frac{1}{F_\beta}=\frac{1}{1+\beta^2}(\frac{1}{P}+\frac{\beta^2}{R})$
$F_\beta=\frac{(1+\beta^2)PR}{\beta^2P+R}$
其中 $\beta>0$ 度量了查全率对查准率的相对重要性。 $\beta=1$ 即为标准的F1， $\beta>1$ 时查全率有更大影响， $\beta<1$ 时查准率有更大影响。

例如在商品推荐系统中，查准率更重要；在逃犯信息检索系统中，查全率更重要

（4）宏 $F 1$ 和微 $F 1$

在 $n$ 个二分类混淆矩阵上综合考察查准率和查全率，则

先计算再平均
$P_i=\frac{TP_i}{TP_i+FP_i}，R_i=\frac{TP_i}{TP_i+FN_i}，i=1，2，…，n$
$macro-P=\frac{1}{n}\sum_{i=1}^nP_i，macro-R=\frac{1}{n}\sum_{i=1}^nR_i$
$macro-F1=\frac{2\times (macro-P)\times (macro-R)}{(macro-P)+(macro-R)}$
先平均再计算
$\overline{TP}=\frac{1}{n}\sum_{i=1}^nTP_i，\overline{FP}=\frac{1}{n}\sum_{i=1}^nFP_i，\overline{FN}=\frac{1}{n}\sum_{i=1}^nFN_i$
$micro-P=\frac{\overline{TP}}{\overline{TP}+\overline{FP}}，micro-R=\frac{\overline{TP}}{\overline{TP}+\overline{FN}}$
$micro-F1=\frac{2\times (micro-P)\times (micro-R)}{(micro-P)+(micro-R)}$
其中 $ma cro - P$ 为宏查准率， $ma cro - R$ 为宏查全率， $ma cro - F 1$ 为宏F1， $mi cro - P$ 为微查准率， $mi cro - R$ 为微查全率， $mi cro - F 1 为微 F 1$

3. $ROC 曲线$ 和 $A U C$

分类阈值（ $t h res h o l d$ ）：将产生的预测值与分类阈值进行比较，大于阈值则分为正类，否则为反类
截断点（ $c u t$ $p o in t$ ）：先将测试样本进行排序，“最可能”是正例的样本排在最前面，“最不可能”是正例的样本排在最后面，以截断点将样本分成两部分，前一部分判作正例，后一部分判作反例

将连续的输出值转换为离散的类别标签，需要根据具体问题和需求进行选择

真实情况	预测结果
真实情况	正例	反例
正	真正例(TP)	假反例(FN)
反	假正例(FP)	真反例(TN)

真正例率（ $t r u e$ $p os i t i v e$ $r a t e$ ， $TPR$ ）：被正确地预测为正例的样本在正例样本中的比例
$TPR=\frac{TP}{TP+FN}$

真正例率和查全率计算方式完全一样

假正例率（ $f a l se$ $p os i t i v e$ $r a t e$ ， $FPR$ ）：被错误地预测为正例的样本在反例样本中的比例
$FPR=\frac{FP}{TN+FP}$
真反例率（ $t r u e$ $n e g a t i v e$ $r a t e$ ， $TNR$ ）：被正确地预测为反例的样本在反例样本中的比例
$TNR=\frac{TN}{TN+FP}=1-FPR$
假反例率（ $f a l se$ $n e g a t i v e$ $r a t e$ ， $FNR$ ）：被错误地预测为反例的样本在正例样本中的比例
$FNR=\frac{FN}{TP+FN}=1-TPR$
$ROC$ ：全称为受试者工作特征（ $rece i v in g$ $o p er a t in g$ $c ha r a c t er i s t i c$ ）， $ROC$ 曲线为 $TPR - FPR$ 曲线，即仅讨论正例率

对角线对应于“随机猜测”模型，点（0，1）对应于将所有正例排在所有反例之前的“理想模型”；
$A U C$ （ $a re a$ $u n d er$ $c u r v e$ ）：此处即为 $ROC$ 曲线下的面积，其考虑的是样本预测的排序质量；一般可以认为， $A U C$ 越高，学习器性能越好；在有限个测试样例中，可估算为：
$AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)(y_i+y_{i+1})$
排序损失（ $r ank$ $l oss$ ）：
$l_{rank}=\frac{1}{m^+m^-}\sum_{x^+\epsilon D^+}\sum_{x^-\epsilon D^-}(\mathbb{I}(f(x^+)<f(x^-))+\frac{1}{2}\mathbb{I}(f(x^+)=f(x^-)))$
$AUC=1-l_{rank}$
其中 $m^+$ 为正例数， $m^-$ 为反例数， $D^+$ 为正例集合， $D^-$ 为反例集合；易得 $l_{rank}$ 对应的是 $ROC$ 曲线之上的面积

4.代价敏感错误率和代价曲线

非均等代价（ $u n e q u a l$ $cos t$ ）：在不同情况下，不同决策或行动所带来的成本或效益不同的情况

例如医疗诊断中，错误地把患者诊断为健康人和错误地把健康人诊断为患者，代价并不一样

代价矩阵（ $cos t$ $ma t r i x$ ）

真实类别	预测类型
真实类别	第0类	第1类
第0类	0	cost_01
第1类	cost_10	0

其中， $cost_{ij}$ 表示将第 $i$ 类样本预测为第 $j$ 类样本的代价；一般 $cost_{ii}=0$

总体代价（ $t o t a l$ $cos t$ ）：在决策或行动过程中，考虑到所有相关因素和成本，综合评估并计算出的总体成本
代价敏感错误率（ $cos t - se n s i t i v e$ $error$ $r a t e$ ）：在分类问题中的评估指标，考虑了不同类别的错误分类所带来的不同代价和成本
$E(f;D;cost)=\frac{1}{m}(\sum_{x_i\epsilon D^+}\mathbb{I}(f(x_i)\neq y)\times cost_{01}+\sum_{x_i\epsilon D^-}\mathbb{I}(f(x_i)\neq y)\times cost_{10})$
正例概率代价（ $p os i t i v e$ $p ro babi l i t y$ $cos t$ ）：一种损失函数，通过对错误分类的正例进行更严重的惩罚，以提高模型对正例的识别能力；取值为 $[0, 1]$ 的正例概率代价如下，其中 $p$ 是样例为正例的概率：
$P^+_{cost}=\frac{p\times cost_{01}}{p\times cost_{01}+(1-p)\times cost_{10}}$

正例概率代价可以用于改善如欺诈检测、罕见疾病诊断等不平衡数据集的分类任务

归一化代价（ $n or ma l i ze d$ $cos t$ ）：将不同类型代价的范围映射到相同的尺度上，以便能够进行比较和权衡；此处针对代价矩阵的，取值为 $[0, 1]$ 的归一化代价如下：
$cost_{norm}=\frac{FNR\times p\times cost_{01}+FPR\times (1-p)\times cost_{10}}{p\times cost_{01}+(1-p)\times cost_{10}}$
其中， $FNR$ 为假反利率， $FPR$ 为假正例率，计算方式见前文
代价曲线（ $cos t$ $c u r v e$ ）或代价效益曲线（ $cos t - e ff ec t i v e n ess$ $c u r v e$ ）
曲线图的横轴是取值为 $[0, 1]$ 的正例概率代价，纵轴是取值为 $[0, 1]$ 的归一化代价
取 $ROC$ 上的一个点，点坐标即为 $（ FPR ， TPR ）$ ，可得 $FNR = 1 - TPR$ ，从而可在代价平面上得到 $（ 0 ， FPR ）$ 到 $（ 1 ， FNR ）$ 的线段，线段下围成的面积表示该条件下的期望总体代价；取 $ROC$ 上的所有点，所有线段下界围成的面积表示在所有条件下学习器的期望总体代价

（四）偏差-方差分解（ $bia s - v a r ian ce$ $d eco m p os i t i o n$ ）

1.期望预测输出

对于训练集 $D$ ，测试样本 $\vec{x}$ ，令 $y$ 为 $\vec{x}$ 的真实标记， $y_D$ 为 $\vec{x}$ 在数据集中的标记（噪音使得 $y_D\neq y$ ）， $f (x; D)$ 为训练集 $D$ 上学得模型 $f$ 在 $\vec{x}$ 上的预测输出；在回归任务中，学习算法的期望预测输出为
$\bar{f}(x)=E_D[f(x;D)]$

2.偏差（ $bia s$ ）

偏差为期望预测输出与真实标记的差别，是由模型对真实关系的错误假设引起的误差
高偏差意味着模型对真实关系的拟合能力较差，容易产生欠拟合，其模型倾向于过于简单，无法捕捉数据的复杂性。
$bias(\vec{x})=\bar{f}(x)-y$

3.方差（ $v a r ian ce$ ）

方差是由模型对训练数据的敏感性引起的误差
高方差意味着模型对训练数据过度拟合，无法泛化到新的数据集，其模型过于复杂，对数据中的噪声过于敏感。
使用样本数相同的不同训练集产生的方差为：
$var(\vec{x})=E_D[(f(x;D)-\bar{f}(x))^2]$

4.噪声（voice）

噪声就是不可避免的误差（Irreducible Error），是数据中的无关或错误信息，是由数据本身或不可预测的因素引起的误差，可能会干扰模型的学习和预测过程；这部分误差无法通过改进模型来减少。
$\epsilon^2=E_D[(y_D-y)^2]$

5.泛化误差的分解

泛化误差可分解为偏差，方差和噪声之和；对于基于均方误差的回归问题：
$E(f;D)=E_D[bias^2(\vec{x})]+E_D[var(\vec{x})]+E_D[\epsilon^2]$

推理过程：
假定噪声期望为 $0$ ，即 $E_D[y_D-y]=0$ ，有
$E(f;D)=E_D[(f(x;D)-y_D)^2]$
$=E_D[(f(x;D)-\bar{f}(x)+\bar{f}(x)-y_D)^2]$
$=E_D[(f(x;D)-\bar{f}(x))^2]+E_D[(\bar{f}(x)-y_D)^2]+E_D[2(f(x;D)-\bar{f}(x))(\bar{f}(x)-y_D)]$
$=E_D[(f(x;D)-\bar{f}(x))^2]+E_D[(\bar{f}(x)-y_D)^2]$
$=E_D[(f(x;D)-\bar{f}(x))^2]+E_D[(\bar{f}(x)-y+y-y_D)^2]$
$=E_D[(f(x;D)-\bar{f}(x))^2]+E_D[(\bar{f}(x)-y)^2]+E_D(y-y_D)^2]+E_D[2(\bar{f}(x)-y)(y-y_D)]$
$=E_D[(f(x;D)-\bar{f}(x))^2]+E_D[(\bar{f}(x)-y)^2]+E_D(y-y_D)^2]$
$=E_D[bias^2(\vec{x})]+E_D[var(\vec{x})]+E_D[\epsilon^2]$

6.偏差-方差窘境（ $bia s - v a r ian ce$ $t r a d eo ff$ ）

偏差-方差窘境指的是在机器学习中，降低模型的偏差和方差是一种权衡。当降低模型的偏差时，通常会增加模型的复杂度，从而增加了方差。相反，降低方差可能会导致模型的偏差增加。要在偏差和方差之间找到一个平衡点，以使模型具有良好的拟合能力和泛化能力。
在这里插入图片描述

解决偏差-方差窘境的方法包括：

增加模型复杂度：通过增加模型的容量，例如增加神经网络的隐藏层的数量或节点数，可以减小偏差，但可能会增加方差。
减少模型复杂度：通过减少模型的复杂度，例如减少神经网络的隐藏层的数量或节点数，可以减小方差，但可能会增加偏差。
正则化：通过添加正则化项来控制模型的复杂度，例如L1正则化或L2正则化，可以在一定程度上同时减小偏差和方差。
数据增强：通过增加训练数据的多样性，例如旋转、平移、缩放等操作，可以减小方差，帮助模型更好地泛化到新的数据。
集成学习：通过结合多个不同模型的预测结果，例如随机森林、梯度提升树等方法，可以减小方差，提高模型的泛化能力。

（五）比较检验

三，归纳学习的分类领域

（一）符号主义学习

1.决策树

2.基于逻辑的学习——归纳逻辑程序设计（ $I n d u c t i v e$ $L o g i c$ $P ro g r ammin g$ ， $I L P$ ）

由于表示能力太强，直接导致学习过程面临的假设空间太大，复杂度极高。因此问题规模稍大就难以有效进行学习

（二）连接主义学习（基于神经网络的黑箱模型）

1.反向传播（ $B a c k P ro p a g a t i o n$ ， $BP$ ）算法

2.深度学习

其学习过程涉及大量参数，而参数的设置缺乏理论指导，主要靠手工调参，试错性太高

（三）统计学习

1.支持向量机（ $S u pp or t$ $V ec t or$ $M a c hin e$ ， $S V M$ ）

2.核方法

四，机器学习方法

（一）传统机器学习方法

传统的机器学习方法通常基于统计学和概率理论，通过从训练数据中学习模型的参数或规则，以进行预测、分类、聚类等任务。

1.监督学习（ $s u p er v i se d$ $l e a r nin g$ ）

通过给定输入数据和相应的标签或目标输出来训练模型，建立一个函数来预测新的输入数据的标签，来学习输入和输出之间的关系

（1）线性回归（ $l in e a r$ $re g ress i o n$ ）

用于建立连续输出变量与输入变量之间的线性关系。

（2）逻辑回归（ $l o g i s t i c$ $re g ress i o n$ ）

用于建立二分类或多分类模型，可以用于预测离散的输出变量。

（3）决策树（ $d ec i s i o n$ $t ree$ ）

通过对特征进行逐步划分，构建一个树状模型，用于分类和回归任务。

（4）支持向量机（ $s u pp or t$ $v ec t or$ $ma c hin e$ ， $S V M$ ）

通过将数据映射到高维空间，找到一个最优的超平面来进行分类或回归。

（5） $k$ 最近邻（ $k - n e a res t$ $n e i g hb ors$ ， $k - NN$ ）

基于实例，通过计算输入样本与训练集中k个最近邻样本的距离来进行分类或回归预测

KNN算法可以用于监督学习任务中的分类问题，也可以用于无监督学习任务中的聚类问题。

（6）计算学习（ $co m p u t a t i o na l$ $l e a r nin g$ ）

通过计算方法和算法实现对数据的学习和预测

（7）规则学习（ $r u l e$ $l e a r nin g$ ）

通过从数据中提取规则或条件，用于预测或分类新的未知数据

（8）生成式模型（ $g e n er a t i v e$ $m o d e l s$ ）

通过建立数据的生成概率模型来对数据进行建模和预测

朴素贝叶斯（ $nai v e$ $ba yes$ ）
基于贝叶斯定理和特征条件独立性假设，通过计算后验概率来预测输入数据的类别，并假设所有特征之间是独立的；用于分类任务
高斯混合模型（ $g a u ss ian$ $g i x t u re$ $m o d e l s$ ， $GMM$ ）
基于高斯分布，假设数据是由多个高斯分布组成的，通过最大化似然函数来估计模型参数；用于聚类、异常检测等任务
隐马尔可夫模型（ $hi dd e n$ $ma r k o v$ $m o d e l s$ ， $H MM$ ）
假设系统的状态是一个隐藏的马尔可夫链，并通过观测数据来推断系统的状态，建模具有隐含状态的序列数据
受限玻尔兹曼机（ $res t r i c t e d$ $b o lt z mann$ $ma c hin es$ ， $RBM$ ）
基于能量模型，由可见层和隐藏层组成，通过最大化训练样本的似然函数来学习模型参数，通过学习权重参数来拟合数据分布；用于无监督学习和特征学习

RBM本身是无监督学习算法，但在特定应用中可以与监督学习结合使用。

深度生成模型（ $d ee p$ $g e n er a t i v e$ $m o d e l s$ ）
基于神经网络，如变分自编码器（ $v a r ia t i o na l$ $a u t o$ $e n co d er$ ， $V A E$ ）和生成对抗网络（ $g e n er a t i v e$ $a d v ers a r ia l$ $n e tw or k$ ， $G A N$ ），模型通过学习编码和解码器或博弈过程来生成新的样本。

（9）集成学习（ $e n se mb l e$ $l e a r nin g$ ）

通过组合多个基本学习器的预测结果，来产生更准确、鲁棒性更强的整体预测，提高模型性能
组合方式：投票法、平均法、堆叠法等

虽然集成学习主要用于监督学习，但也可以与无监督学习相结合，例如使用无监督学习算法对数据进行聚类或降维，然后在集成学习中使用这些无监督学习的结果进行训练和预测。这种结合可以在半监督学习或弱监督学习等任务中发挥作用。

随机森林（ $r an d o m$ $f ores t$ ）
基于决策树，构建多个决策树，并通过投票或平均的方式进行集成；用于分类和回归预测。
提升（ $b oos t in g$ ）算法
通过组合多个弱学习器来构建一个强学习器，这些弱学习器一般是准确率略高于随机猜测的学习器。通过迭代训练一系列弱学习器，每个学习器都尝试修正前一轮学习器的错误，最终将这些弱学习器的预测结果进行加权组合，形成一个强学习器
自适应提升（ $A d a pt i v e$ $B oos t in g$ ， $A d a B oos t$ ）算法
通过迭代训练一系列弱学习器，每个学习器都根据前一轮学习器的错误情况自适应地调整训练样本的权重，从而更加关注错误分类的样本，以提高整体模型的准确性。在每一轮迭代中，根据弱学习器的准确性为其分配一个权重，然后将所有弱学习器的预测结果进行加权投票，得到最终的预测结果
在处理二分类问题时表现出色，但对噪声和异常值比较敏感
梯度提升（ $g r a d i e n t$ $b oos t in g$ ）算法
基于梯度优化，通过迭代训练一系列弱学习器来构建一个强学习器，使用了梯度下降优化算法来最小化损失函数。在每一轮迭代中，通过计算损失函数的负梯度来确定下一轮弱学习器的目标，每个弱学习器都试图拟合上一轮学习器的残差，以逐步减少整体模型的误差，以提升整体模型的性能。最终将所有弱学习器的预测结果进行加权组合，得到最终的预测结果。
更加灵活且能够处理更复杂的问题。
变种： $g r a d i e n t$ $b oos t in g$ $ma c hin e$ （ $GBM$ ）， $e x t re m e$ $g r a d i e n t$ $b oos t in g$ （ $XGB oos t$ ）和 $L i g h tGBM$ 等。
自助聚合（ $b oo t s t r a p$ $a gg re g a t in g$ ， $B a gg in g$ ）算法
基于自助采样（ $b oo t s t r a p$ ），通过从原始训练数据集中多次有放回地进行采样，生成多个不同的训练集。然后每个训练集都用于训练一个基本学习器，最后通过投票或取平均值的方式来集成这些基本学习器的预测结果
可以降低模型的方差，提高模型的鲁棒性和泛化能力。
随机森林（ $r an d o m$ $f ores t$ ）算法
基于决策树，构建多个决策树，并通过投票或平均的方式进行集成，是 $B a gg in g$ 的拓展；用于分类和回归预测。
堆叠泛化（ $s t a c k e d$ $g e n er a l i z a t i o n$ ， $St a c kin g$ ）算法
基于模型堆叠（ $s t a c k e d$ ），通过将多个基本学习器的预测结果作为输入，再训练一个元学习器来对最终的目标进行预测。首先将原始训练数据集划分为两个或多个不相交的子集，分别用于训练基本学习器和构建元学习器的训练集。基本学习器生成的预测结果被用作元学习器的输入特征，从而产生最终的预测结果。
可以使模型更加灵活和强大，因为元学习器可以学习到基本学习器之间的关系和权重。

2.无监督学习（ $u n s u p er v i se d$ $l e a r nin g$ ）

用于处理无标签数据的学习方法，目标是发现数据中的隐藏结构和模式。

（1）聚类（ $c l u s t er in g$ ）

将相似的数据样本分组为不同的类别，每个类别内的数据具有较高的相似性，而不同类别之间的数据具有较大的差异。

K均值聚类（ $k - m e an s$ $c l u s t er in g$ ）
将数据样本分为 $k$ 个簇，使得簇内的样本之间的距离最小化
层次聚类（ $hi er a rc hi c a l$ $c l u s t er in g$ ）
通过自下而上或自上而下的聚合方式，将数据样本组织成层次结构
基于密度的空间聚类与噪声应用（ $De n s i t y - B a se d$ $Sp a t ia l$ $Cl u s t er in g$ $o f$ $A ppl i c a t i o n s$ $w i t h$ $N o i se$ ， $D BSC A N$ ）
基于样本的密度来将数据点分为核心点、边界点和噪声点。

（2）关联规则挖掘（ $a soc ia t i o n$ $r u l e$ $minin g$ ）

用于发现数据项之间关联关系的学习方法，通过分析数据集中的频繁项集和关联规则，揭示数据中的相关模式；购物篮分析是关联规则挖掘的一个具体应用领域

$A p r i or i$ 算法：
通过逐层搜索频繁项集，找出具有最小支持度的频繁项集和关联规则。
$FP - G ro wt h$ 算法
通过构建频繁项集的紧凑数据结构（ $FP$ 树， $f re q u e n t$ $p a tt er n$ $t ree$ ），从而高效地挖掘频繁项集和关联规则。
$E c l a t$ 算法（ $e q u i v a l e n ce$ $c l a ss$ $t r an s f or ma t i o n$ ）
利用等价类的概念来处理频繁项集和关联规则的挖掘，通过压缩事务数据库来形成垂直数据格式，然后使用递归方式搜索。

（3）降维——主成分分析（ $p r in c i p a l$ $co m p o n e n t$ $ana l ys i s$ ， $PC A$ ）

通过降维将高维数据映射到低维空间，以保留最重要的特征。

3. 半监督学习（ $se mi - s u p er v i se d$ $l e a r nin g$ ）

利用有标签和无标签的数据来进行训练和预测的学习方法，通常情况下有大量无标签数据和少量有标签数据，可以利用未标记数据的信息来提高模型性能；常用于数据标注困难或昂贵的情况下。

（1）自训练（ $se l f - t r ainin g$ ）

通过使用有标签数据训练初始模型，然后将该模型应用于未标签数据，并将模型预测的结果作为伪标签来扩充训练集进行迭代训练。

（2）协同训练（ $co - t r ainin g$ ）

通过将特征空间划分为多个视角，使用有标签数据训练多个独立的分类器，在每个视角上使用未标签数据进行互相增强和更新；适用于特征空间有多个视角的问题

（3）标签传播（ $l ab e l$ $p ro p a g a t i o n$ ）

假设相似的样本在标签上也是相似的，基于图模型，通过构建样本之间的相似度图，并将有标签数据的标签传播到无标签数据上，从而进行预测。

（4）分布式共享表示（ $d i s t r ib u t e d$ $s ha re d$ $re p rese n t a t i o n s$ ）

通过在有标签和无标签数据上共享特征表示来进行训练。它通过使用无监督学习方法来学习共享特征表示，并在有标签数据上进行监督学习来提高性能。

4.强化学习（ $re in f orce m e n t$ $l e a r nin g$ ）

通过与环境的交互学习，通过试错来最大化累积奖励。强化学习适用于需要决策和行动的问题，如游戏、自动驾驶等。

5.迁移学习（ $t r an s f er$ $l e a r nin g$ ）

将在一个任务上学习到的知识和经验应用于另一个相关任务上，以加速学习过程和提高性能。

（二）深度学习

深度学习是一种特定的机器学习方法，，通过构建和训练多层神经网络来模拟人脑的神经结构，实现对复杂数据的高级特征提取和预测

五，其他概念

1.误分类代价，测试代价，标记代价，属性代价，代价敏感学习
2.要素化表示法，分析学习（演绎学习）
3.假说，分类，假说空间，一致假说，奥坎姆剃刀
4.学习曲线，快乐图，熵，信息收益，决策树剪枝，重要性测试， $\chi^2$ 剪枝，早期终止，收益比率，分裂点，回归树

$\chi^2$ 剪枝是一种特征选择

5.稳定性假设，误差率，偷窥，最优化，封套（ $w r a pp er$ ），损耗函数，泛化损耗，经验损耗，小规模学习，大规模学习，正则化，特征选择，极小描述长度（ $minim u m$ $d escr i pt i o n$ $l e n g t h$ ， $M D L$ ）假说
6.概率近似正确（ $p ro bab l y$ $a pp ro x ima t e l y$ $correc t$ ， $P A C$ ）学习算法，计算学习理论，样本复杂度，决策表
7.类比学习，概念学习，度量学习，稀疏学习