机器学习及监督学习概论

bulingg

已于 2023-07-13 18:19:27 修改

阅读量284

点赞数

分类专栏：机器学习文章标签：机器学习学习人工智能

于 2023-07-13 16:38:12 首次发布

本文链接：https://blog.csdn.net/bulling/article/details/131674097

版权

机器学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

本文介绍了机器学习的基本分类，包括监督、无监督、强化和半监督学习。接着讨论了模型的分类，如概率与非概率、参数与非参数模型。此外，还涉及了按算法和技巧分类的机器学习，如在线学习、批量学习、贝叶斯学习和核方法。文章进一步阐述了机器学习中的策略，如损失函数和风险函数，以及模型评估与选择的方法，如经验风险最小化和结构风险最小化。最后，对比了生成式模型和判别式模型的优缺点。

摘要由CSDN通过智能技术生成

一、机器学习的分类

1.1 基本分类：

监督学习：从标注的数据学习预测模型.
监督学习假设输入 $X$ 与输出 $Y$ 服从联合概率分布 $P (X, Y)$
无监督学习：从无标注的数据学习预测模型
强化学习：智能系统与环境进行连续互动学习最优行为策略的过程
（智能系统根据环境做出的状态和奖励决定下一步的行为，环境根据智能系统的行为做出下一步的状态和奖励）

半监督学习（从大量未标注数据，少量标注数据中学习预测模型）
主动学习（机器不断主动产生实例让老师进行评判打分，倾向于找出堆学习最有帮助的实例让教师标注，而监督学习使用给定的标注数据，往往是随机产生的，因为也属于“被动学习”）属于监督学习的一类

1.2 按模型分类

概率与非概率模型

概率模型：学习条件概率分布 $P (Y ∣ X)$
e.g.,朴素贝叶斯，决策树
非概率模型：学习决策函数 $Y = f (X)$
区别，概率模型可以表示为联合概率分布 $P (X, Y)$ 的形式，非概率模型不可以
e,g.,逻辑斯蒂回归，支持向量机，k近邻

参数与非参数模型

参数模型：假设模型参数的维度固定，即模型可以由有限个参数完全刻画
e.g.,逻辑斯蒂回归，朴素贝叶斯
非参数模型：假设模型参数的维度不固定或者是无穷大，随着数据量的增加而不断增大
e.g.,决策树，支持向量机，k近邻

1.3 按算法分类

在线学习：每次接受一个样本，进行预测，之后学习模型
批量学习：一次接受所有数据，学习模型，之后进行预测

1.4 按技巧分类

贝叶斯学习：根据贝叶斯定理，计算在给定数据的条件下模型的条件概率，即后验概率
假设变量 $D$ 表示数据， $\theta$ 表示模型参数。根据贝叶斯定理可以学习模型的后验概率
$P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}$
其中， $P(\theta)$ 表示先验概率， $P(D|\theta)$ 表示条件概率（似然函数）。想要获得最佳模型参数即求解最大后验概率。
核方法：使用核函数表示核学习非线性模型
不显示地定义低维空间到高维空间的映射，而是直接定义核函数，即映射之后在高维空间的内积
假设输入空间两个向量 $x, y$ ，到输出空间的映射为 $\phi$ ，则在输出空间的内积为 $<\phi(x),\phi(y)>$ ，可以直接在输入空间定义核函数 $K (x, y)$ ，满足 $<\phi(x),\phi(y)>$
常见的核函数有：

核函数	表达式
线性核	$K(x_{i},x_{j})=x_{i}^{T}x_{j}$
多项式核	$K(x_{i},x_{j})=(x_{i}^{T} x_{j}+1)^{d}$
高斯核	$K(x_{i},x_{j})=exp(-\frac{\Vert x_{i}-x_{j}\Vert^{2}}{2\sigma^{2}})=exp(-\gamma\Vert x_{i}-x_{j}\Vert^{2})$
拉普拉斯核	$K(x_{i},x_{j})=exp(-\frac{\Vert x_{i}-x_{j}\Vert}{\sigma})$
指数核	$K(x_{i},x_{j})=exp(-\frac{\Vert x_{i}-x_{j}\Vert}{2\sigma^{2}})$

二，机器学习方法三要素

方法 = 模型+策略+算法

2.1 模型

假设空间用 $F$ 定义，在监督学习中，模型是需要学习的条件概率分布或决策函数

决策函数的集合：
$F = \{f|Y=f(x)\}$
条件概率的集合：
$F = \{P|P(Y|X)\}$

2.2 策略

根据模型的假设空间，依据准则选取最优模型
损失函数：

0-1损失

$L(Y,f(X))=\begin{cases} 0, Y\ne f(X)\\ 1,Y =f(X) \end{cases}$
2. 平方损失函数
$L(Y,f(X))=(Y-f(X))^{2}$
3. 绝对损失函数
$L(Y,f(X))=\vert Y-f(X)\vert^{2}$
4. 对数似然损失函数
$L (Y, P (Y ∣ X)) = - l o g (P (Y ∣ X))$

损失函数的期望（风险函数，期望损失）为
$R_{exp}=E_{P}[L(Y,f(X))]=\int_{(x,y)}L(Y,f(X))P(X,Y)dxdy$
由于联合概率 $P (X, Y)$ 未知，则在给定训练数据集
$T=\{(x_{1},y_{1}),\cdots,(x_{N},y_{N})\}$
模型 $f (X)$ 关于训练数据集的平均损失（经验风险）为
$R_{emp}=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))$
期望风险 $R_{exp}$ 时模型关于联合概率分布的期望损失，经验风险 $R_{emp}$ 时模型关于训练数据的平均损失，根据大数定理（ $\forall\varepsilon\ge0$ ，如果存在 $lim_{n\to\infty}P(\vert\bar{X}_{n}-E\bar{X}_{n})\vert<\varepsilon)=1$ ，则称 ${X_{n}\}$ 服从大数定理，中心极限定理是指 $n\to\infty,\bar{X}_{n}$ 服从正态分布）可知经验风险趋于期望风险

经验风险最小化：
$\underset{f\in F}{min}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))$
当样本量足够大时，经验风险最小化能够保证较好的学习效果；但是当样本量较小时，容易出现“过拟合”现象（在训练集上效果好，对未知数据效果差）
结构风险最小化：等价于正则化
在经验风险的基础上加上模型复杂度的惩罚项，意在找到较为简单同时经验风险较小的模型
$\underset{f\in F}{min}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)$
$\lambda$ 用于平衡经验风险和模型复杂度，第一项为经验风险，第二项为正则化项， $J (f)$ 表示模型复杂度

2.3 算法

学习模型的具体计算方法，例如梯度下降等

三，模型评估与模型选择

3.1 模型评估

假设学习的模型为 $\hat{f}(X)$ ，训练误差为
$R_{emp}=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},\hat{f}(x_{i}))$
测试误差为
$e_{test}=\frac{1}{N'}\sum_{i=1}^{N'}L(y_{i},\hat{f}(x_{i}))$

当损失为0-1损失时，
误差率： $e_{test}=\frac{1}{N'}\sum_{i=1}^{N'}I(y_{i}\ne\hat{f}(x_{i}))$
精确度（accuracy）： $r_{test}=\frac{1}{N'}\sum_{i=1}^{N'}I(y_{i}=\hat{f}(x_{i}))$
显然有 $e_{test} + r_{test}=1$
更多评估指标可见模型评估与选择

3.2 模型选择：

正则化（ $L_{1},L_{2}$ 正则化）

$L_{2}$ 正则化：
$\underset{f\in F}{min}\frac{1} {N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\frac{\lambda}{2} \Vert \theta \Vert^{2}$
$L_{1}$ 正则化：
$\underset{f\in F}{min}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda \Vert \theta \Vert_{1}$
其中， $\theta$ 表示参数向量。
过拟合现象：学习时选择的模型所包含的参数过多，导致模型对于已知数据预测得很好，但对于位置数据预测得很差的现象
模型复杂度越高，训练误差越低，但是测试误差会较高
模型复杂度较小，训练误差和测试误差均较高
选择合适的模型参数，以达到测试误差最小
3. 交叉验证法：
+ 简单交叉验证：随机将已知数据分为两部分，分别作为训练集和测试集
+ K折交叉验证：将数据分为K份互不相交，大小相同的子集，利用K-1个子集训练模型，1个余下子集测试模型，将该过程重复K次，得到平均测试误差最小的模型
+ 留一交叉验证（在数据量匮乏时，K = N（样本量）,留一个样本用于测试

训练集：训练模型
验证集：模型选择
测试集：评估模型的泛化性能
学习方法对未知数据的预测能力称为泛化能力