机器学习知识点

最新推荐文章于 2023-12-12 22:10:42 发布

胖胖的小一休

最新推荐文章于 2023-12-12 22:10:42 发布

阅读量1k

点赞数 1

分类专栏： # 经典算法学习笔记-前沿算法

本文链接：https://blog.csdn.net/u014425208/article/details/88073398

版权

经典算法同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

学习笔记-前沿算法

1 篇文章 0 订阅

订阅专栏

1.机器学习方法概论
2.感知机
- 2.1 什么是感知机？（模型，策略，算法）
- 2.2 感知机学习算法的对偶形式是什么？
3 k近邻法
4.朴素贝叶斯
5.决策树
6.逻辑回归与最大熵模型
7.支持向量机
8.集成学习
9.EM算法
10.隐马尔科夫模型与条件随机场
11.聚类方法
- k-means聚类是什么？

１．机器学习方法概论

1.1 监督学习关于数据的基本假设是什么？

X和Y具有联合概率分布，训练数据与测试数据按照联合概率分布P(X,Y)独立同分布产生。

1.2 模型的假设空间是什么？

模型属于输入空间到输出空间映射的集合，这个集合就是假设空间，假设空间的确定意味着学习范围的确定。由决策函数或者条件概率表示。

1.3 统计学习三要素

方法＝模型＋策略＋算法

1.4 损失函数的定义，有哪些损失函数，风险函数的定义？

损失函数是决策函数的做一次预测的错误的度量
常用的损失函数有0-1损失，平方损失，绝对值损失，对数似然损失- $- l o g P (Y ∣ X)$
损失函数在样本联合概率分布下的期望叫做风险函数或期望损失。学习的目标就是最小化期望损失。

1.5 经验风险与结构风险是什么？

模型关于训练数据集的平均损失叫做经验风险。根据大数定律，当训练集样本量趋于无穷时，经验风险趋于期望风险。当损失函数是对数似然函数时，最小化经验风险等价于极大似然估计。
结构风险＝经验风险＋模型复杂度的正则化项。当损失函数是对数似然函数时，最小化结构风险等价于最大后验概率的估计。

1.6 什么是过拟合？

学习时模型的复杂度过高，导致训练误差与测试误差的差别太大。训练误差与测试误差的曲线：\|U。

1.7 模型选择的方法有哪些？

正则化。最小化结构风险。
交叉验证。随机将数据切分为S个互不相交的子集，利用S-1个子集训练，余下的子集测试，选出平均测试误差最小的模型。

1.8 什么是Hoeffding不等式？

$设S_n=\sum_{i=1}^{n}{X_i}是独立随机变量X_i之和，X_i\in[a_i,b_i],\\则对任意t>0，以下不等式成立：\\ P(S_n-ES_n \ge t) \le exp(\frac{-2t^2}{\sum_{i=1}^{n}{(b_i^2-a_i^2)}}) \\ P(ES_n-S_n \ge t) \le exp(\frac{-2t^2}{\sum_{i=1}^{n}{(b_i^2-a_i^2)}})$

1.9 什么是泛化能力？泛化能力跟什么有关？

泛化能力是学习到的模型对未知数据的预测能力，泛化误差是模型的期望风险。
（泛化误差的上界）对于二分类问题，假设空间是由有限个函数的集合 $F=\{f_1,f_2, ...,f_d\}$ 时，对任意函数 $\in F$ ，至少以概率 $1-\delta$ ，以下不等式成立： $\le \hat{R}(f)+\sqrt{\frac{1}{2N}(\log d+\log \frac{1}{\delta})} \\$ 其中左端是泛化误差，右端是上界，N是训练样本数。
训练样本越多，泛化能力越好。假设空间越大，泛化能力越差。

1.10 生成模型与判别模型的区别

生成方法由数据学习联合概率分布，然后求出条件概率分布。判别方法直接学习决策函数或者条件概率分布。
生成方法学习收敛速度更快，当样本容量增加时，模型更快的收敛于真实模型，当存在隐变量时，只能用生成模型。
判别方法往往学习的准确率更高，可以对数据进行特征抽象。

1.11 准确率，精确率，召回率与F1值是什么？

准确率是分类器正确分类样本数与总样本数之比。
记TP-将正类预测为正类；FN-将正类预测为负类；FP-将负类预测为正类；TN-将负类预测为正类，那么 $\frac {TP}{TP+FP} \\ 召回率：R=\frac {TP}{TP+FN} \\ F1值：\frac{2}{F1}=\frac{1}{P}+\frac{1}{R}$ 一般来说，P与R是一对相互矛盾的量。

1.12 ROC，AUC是什么？

ROC全称是受试者工作特征，
$真正例率表示预测的正类中实际正实例占所有正实例的比例\\ TPR=\frac{TP}{TP+FN} \\ 假正例率预测的正类中实际负实例占所有负实例的比例 \\ FPR=\frac{FP}{TP+FP} \\$ ROC就是TPR-FPR曲线。
AUC是ROC曲线下的面积。首先AUC值是一个概率值，当你随机挑选一个正样本以及负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值，AUC值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。

1.13 监督学习的重要问题有哪些？

分类，回归，标注

２．感知机

2.1 什么是感知机？（模型，策略，算法）

模型：一种线性分类模型 $\cdot x+b)$ 将样本空间的正负样本分离的超平面。
策略：误分类点到超平面的总距离 $L(w,b)=-\sum_{x_i \in M}{y_i(w \cdot x_i+b)} ，其中M是误分类样本点的集合。$
算法：随机梯度下降，一次随机选取一个误分类点使其梯度下降
$\nabla_w{L(w,b)}=-\sum_{x_i \in M}{y_ix_i} \\ \nabla_b{L(w,b)}=-\sum_{x_i \in M}{y_i} \\ 随机选取一个误分类点(x_i,y_i),对w,b更新 \\ w \gets w+\eta x_iy_i \\ b \gets b+\eta y_i \\$ 采用不同的初值或选取不同的误分类点，感知机的解可以不同。

2.2 感知机学习算法的对偶形式是什么？

模型：一种线性分类模型 $f(x)=sign(\sum_{j=1}^N{\alpha_jy_jx_j} \cdot x+b)$ 将样本空间的正负样本分离的超平面。
策略：误分类点到超平面的总距离 $L(w,b)=-\sum_{x_i \in M}{y_i(\sum_{j=1}^N{\alpha_jy_jx_j} \cdot x+b)} ，其中M是误分类样本点的集合。$
算法：随机梯度下降，一次随机选取一个误分类点使其梯度下降
$随机选取一个误分类点(x_i,y_i),对\alpha_i,b更新 \\ \alpha_i \gets \alpha_i+\eta \\ b \gets b+\eta y_i \\$

3.k近邻法

3.1 什么是k-NN？

给定训练实例点跟输入实例点，首先确定输入实例点的k个最近邻训练实例点，然后利用k个训练实例点的类的多数预测输入实例点的类。模型解释：每个训练样本点对应于特征空间的一个划分，该区域的标记就是该训练点对应的标记。

3.2 什么是k-NN的三要素？

距离度量： $L_p$ 距离的定义， $p=1(曼哈顿距离),2(欧氏距离),\infty(最大值距离)$
k值的选择：交叉验证选择k值。k值太小，不够鲁棒，容易过拟合；k值太大，近似误差变大。
分类决策：多数表决

3.3 k-NN算法的优缺点？

思想简单，理论成熟，既可以用来做分类也可以用来做回归；可用于非线性分类；不需要训练时间；准确度高，对数据没有假设，对outlier不敏感。
计算量大；样本不平衡问题；需要大量的内存。

3.4 列举k-NN的实现(kd树)

kd树的构造：1.构造根节点，根节点包含整个k维空间的实例点；2.选择一维的中位数作为切分点，将父区域划分为左右子区域，将切分点作为树的一个节点；3.重复划分子区域，直到不可划分。
kd树的搜索：1.从根节点出发，找到包含目标点的叶节点；2.递归向上回溯，若回溯点距离更近，则更新最近点，若检查另一子节点区域与以目标点为中心，当前最短距离为半径的球是否相交，若相交，则向下查找另一子节点区域，若不相交，则继续递归向上；3.直到回退到根节点。

4.朴素贝叶斯

4.1 贝叶斯法是什么？

朴素贝叶斯法是典型的生成学习的方法，由训练数据求得联合概率分布 $P (X, Y)$ ，然后求得条件概率分布 $P (Y ∣ X)$ 。具体是利用训练数据学习 $P (Y)$ 和 $P (X ∣ Y)$ 的估计，得到联合概率分布。

4.2 朴素贝叶斯法的基本假设是什么？

条件独立性： $P(X|Y)=P(x_1,x_2,...,x_n|Y)=\prod_{i=1}^{n}P(x_i|Y)$ 为了缩减模型参数空间。

4.3 怎么证明后验概率最大化等价于期望风险最小化(假设0-1损失函数)？

$R_{exp}(f)=E[L(Y,f(X))]=E_X \sum_{k=1}^K{[L(c_k,f(X))]P(c_k|X)} \\ f(x)=argmin_{y \in Y}{\sum_{k=1}^K{[L(c_k,y)]P(c_k|X=x)}} \\ =argmax_{y \in Y}P(y=c_k|X=x)$

4.4 朴素贝叶斯法的参数估计方法有哪些？

极大似然估计： $P(Y=c_k)=\frac{\sum_{i=1}^n{I(y_i=c_k)}}{N},k=1,2,...,K \\ P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N{I(x_i^{(i)}=a_{jl},y_i=c_k)}}{\sum_{i=1}^N{I(y_i=c_k)}},a_{jl}是第j个特征可能取第l个值。$
贝叶斯估计： $P_{\lambda}(Y=c_k)=\frac{\sum_{i=1}^n{I(y_i=c_k)}+ \lambda}{N+K \lambda},k=1,2,...,K \\ P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N{I(x_i^{(i)}=a_{jl},y_i=c_k)}+ \lambda}{\sum_{i=1}^N{I(y_i=c_k)}+S_j \lambda},a_{jl}是第j个特征可能取第l个值。$

4.5 朴素贝叶斯法的优缺点？

对小规模的数据表现很好，适合多分类任务，适合增量式训练。
对输入数据的表达形式很敏感（离散、连续，值极大极小之类的）。

5.决策树

5.1 什么是分类决策树模型？

基于特征对实例进行分类的树形结构，从根节点开始，对实例的某一特征及其取值进行测试，根据测试结果，选取特征及其值将实例分配到子节点，递归的对实例进行分配，直至达到叶节点。

5.2 决策树模型与if-then规则的联系？

决策树的每个叶节点到根节点的路径构成一条规则，路径上的内部节点对应于形成规则的条件，叶节点则是规则导出的结论。它们都具有互斥完备性：每个实例都被仅有的一条路径覆盖。

5.3 决策树模型与条件概率的联系？

决策树可以表示为给定特征下类的条件概率分布。

5.4 熵，条件熵是什么？

熵：概率分布的负对数的期望；表示随机变量的不确定性。 $H(p)=-E_p[\log p] \\ 或 \\ H(X)=-\sum_{i=1}^n{p(X=x_i)\log p(X=x_i)}$
条件熵:给定X条件下，Y的条件概率分布的熵对X的期望；表示给定X条件下，随机变量Y的不确定性。 $H(Y|X)=\sum_{i=1}^n{p(X=x_i)H(Y|X=x_i)}$

5.5 信息增益，信息增益比是什么?

信息增益：特征A对数据集D的信息增益g(D,A)定义为集合D的经验熵H(D)与在给定特征A条件下集合D的经验条件熵H(D|A)之差。又称为互信息。 $\\ H(D)=-\sum_{k=1}^K{\frac{|C_k|}{|D|}\log_2 \frac{|C_k|}{|D|}} \\ H(D|A)=\sum_{i=1}^n{\frac{|D_i|}{D}H(D_i)}$
信息增益比：信息增益g(D,A)与集合D关于特征A的熵之比。 $g_R(D,A)=\frac{g(D,A)}{H_A(D)} \\ H_A(D)=-\sum_{i=1}^n{\frac{|D_i|}{|D|}\log_2\frac{|D_i|}{|D|}}，n是特征A的取值个数。$

5.6 基尼指数是什么?

对于k分类问题，概率分布的基尼指数为 $Gini(p)=\sum_{k=1}^K{p_k(1-p_k)}=\sum_{k=1}^K{1-p_k^2} \\ 对于样本集合D，Gini(D)=1-\sum_{k=1}^K{(\frac{|C_k|}{|D|})^2} \\ 在特征A的条件下，D的基尼指数为 Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2) \\$ 基尼指数越大，样本集合不确定性越大。

5.7 决策树学习算法有哪些组成，常见的决策树算法有哪些？

包括特征选取，决策树生成以及剪枝过程。
ID3算法：选取当前数据集下信息增益最大的特征作为划分点。
C4.5算法：选取当前数据集下信息增益比最大的特征作为划分点。
CART分类树算法：选取基尼指数最小的特征及特征值作为切分点。

5.8 决策树的简单剪枝过程？

决策树的损失函数 $C_\alpha(T)=\sum_{t=1}^{|T|}｛Ｎ_tH_t(T)+\alpha |T|｝\\ H_t(T)=-\sum_{k}\frac{N_{tk}}{N_{t}}{\log \frac{N_{tk}}{N_{t}}} \\$ 其中t是叶节点的索引， $N_{t}$ 是第t个叶节点含有样本的总个数， $N_{tk}$ 是第t个叶节点含有第k类样本的个数
具体剪枝过程：1.计算当前数的损失函数；2.递归从叶节点向上回缩，比较当前状态的损失，如果更小则将该父节点变为叶节点；3.直到不能继续，得到损失最小的决策树结构。

5.9 简述CART算法

CART树其实是二叉决策树，每个节点的特征取值只有是和否。

回归树的生成：1.给定切分特征和切分值，使特征空间划分为大于切分值和小于等于切分值的子空间；2.求得切分后的子空间的样本点的标签值与空间的均值的残差，寻找残差最小的切分；3.直至不可划分。
分类数的生成：将选取切分点的规则变为基尼指数最小即可。
决策树剪枝：1.自下而上计算内部节点t的 $C(T_t),|T_t|,g(t)=\frac{C(t)-C(T_t)}{|T_t|-1},\alpha =min(\alpha,g(t))$ 　2.自上而下的访问内部节点t，如果有 $g(t)=\alpha$ ,则进行剪枝。

5.10 决策树的优缺点

计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征。
单颗决策树分类能力弱；容易过拟合。

5.11 GBDT

用于回归任务
- 1.初始化决策树， $f_0(x)=arg\min_c{\sum_{i=1}^N{L(y_i,c)}}$
- 2.计算负梯度 $r_{mi}=-[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$ ，对于 $r_{mi}$ 拟合回归树，得到第m颗树的叶节点区域 $R_{mj}$
- 3.计算 $c_{mj}=arg\min_c{\sum_{x_i \in R_{mj}}{L(y_i,f_{m-1}(x_i)+c)}}$ ，更新 $f_m(x)=f_{m-1}(x)+\sum_{j=1}^J{c_{mj}I(x\in R_{mj})}$
用于分类任务
- 1.对于每一类，初始化每类的F函数 $F_{K,0}(x)=0,k=1,..,K$
- 2.计算当前概率值 $p_k(x)=\frac{exp(F_{k,m-1}(x))}{\sum_{k=1}^K{exp(F_{k,m-1}(x)})}$
- 3.计算概率残差 $\tilde{y}_{ik}=y_{ik}-p_k(x_i)$ ，用残差拟合具有L个叶节点的回归树
- 4. $\gamma_{klm}=\frac{K-1}{K}\frac{\sum_{x_i\in R_{klm}}{\tilde{y}_{ik}}}{\sum_{x_i\in R_{klm}}{|\tilde{y}_{ik}|(1-|\tilde{y}_{ik}|)}} \\ F_{k,m}(x)=F_{k,m-1}(x)+\gamma_{klm}1(x\in R_{klm})$
GBDT就是GB+DT，弱分类器一般用CART树。

5.12 XGBoost

xgboost在GBDT基础上加了正则项 $L(\phi)=\sum_i{l(\tilde{y}_i,y_i)}+\sum_k{\Omega (f_k)} \\ \Omega(f)=\gamma T+\frac{1}{2}\lambda ||\omega||^2$
对loss函数做二阶泰勒展开 $L^{(t)}=\sum_{i=1}^n{l(y_i,\hat{y}_i^{(t-1)}+f_t(x_i))}+\Omega (f_t) \\ =\sum_{i=1}^n{l(y_i,\hat{y}_i^{(t-1)})+g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)}+\Omega (f_t) \\ =\sum_{j=1}^T{[(\sum_{i \in I_j} g_i)\omega_j+\frac{1}{2}(\sum_{i \in I_j}h_i+\lambda)\omega_j^2]}+\gamma T$
所以结果 $\omega_j^*=-\frac{G_j}{H_j+\lambda} ,L=-\frac{1}{2}\sum_{j=1}^T\frac{G_j^2}{H_j+\lambda}+\gamma T$
用上述的目标函数值取拟合回归树，从而得到进一步的集成。

5.13 XGBoost与GBDT的比较

在寻找最佳分割点时，考虑传统的枚举每个特征的所有可能分割点的贪心法效率太低，xgboost实现了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者，然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。
xgboost考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率。
特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然boosting算法迭代必须串行，但是在处理每个特征列时可以做到并行。
按照特征列方式存储能优化寻找最佳的分割点，但是当以行计算梯度数据时会导致内存的不连续访问，严重时会导致cache miss，降低算法效率。paper中提到，可先将数据收集到线程内部的buffer，然后再计算，提高算法的效率。
（1）GBDT是机器学习算法，XGBOOST是该算法的工程实现；
（2）在使用CART作为基分类器时，XGBOOST显式地加入了正则项来控制模型的复杂度，有利于防止过拟合，从而提高模型的泛化能力；
（3）GBDT在模型训练时只使用了代价函数的一阶导数信息，XGBOOST对代价函数进行二阶泰勒展开，可以同时使用一阶和二阶导数；
（4）传统的GBDT采用CART作为基分类器，XGBOOST支持多种类型的基分类器，比如线性分类器；
（5）传统的GBDT在每轮迭代时使用全部的数据，XGBOOST则采用了与随机森林相似的策略，支持对数据进行采样；
（6）传统的GBDT没有设计对缺失值进行处理，XGBOOST能够自动学习出缺失值的处理策略。

5.14 lightGBM

根据直方图的离散值，遍历寻找最优的分割点。

6.逻辑回归与最大熵模型

6.1 什么是逻辑回归模型（模型，策略，算法）

模型：由条件概率表示的分类模型，输出的对数几率是输入的线性函数。 $P(Y=k|x)=\frac{\exp(w_k \cdot x)}{1+\sum_{k=1}^{K-1}{\exp{(w_k \cdot x)}}}，k=1,2,..,K-1 \\ P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}{\exp{(w_k \cdot x)}}}，k=K \\$
策略：损失函数(二分类) $L(w)=\sum_{i=1}^N{[y_i\log \pi(x_i)+(1-y_i)\log (1-\pi(x_i))]} \\ =\sum_{i=1}^N{[y_i(w \cdot x_i)-\log (1+\exp (w \cdot x_i))]}$
算法：梯度下降或者拟牛顿法

6.2 逻辑回归的优缺点

实现简单；分类时计算量非常小，速度很快，存储资源低。
容易欠拟合，一般准确度不太高；要求数据集线性可分。

6.3 一个k分类softmax回归器与k个二分类逻辑回归器对比？

如果类别之间互斥，就用softmax；如果类别之间有联系，就用另一个。

6.4 什么是最大熵原理

在学习概率模型时，在所有可能的概率模型集合中，熵最大的模型是最好的。在满足约束条件下，选取熵最大的模型。

6.5 什么是最大熵模型

$P_w(y|x)=\frac{1}{Z_w(x)}\exp(\sum_{i=1}^n{w_if_i(x,y)})，其中f是特征函数。$

6.6 由最大熵原理推导最大熵模型

问题等价于 $\min_{p \in C} -H(P)=\sum_{x,y}{\tilde{P}(x)P(y|x)\log P(y|x)} \\ s.t. \ E_p(f_i)-E_{\tilde {P}}(f_i)=0,i=1,2,...,n \\ \sum_y{P(y|x)}=1$
转换为对偶问题 $\min_{P \in C}\max_w L(P,w) \to \max_w\min_{P \in C} L(P,w)$
$L(P,w)=-H(P)+w_0(1-\sum_y{P(y|x)})+\sum_{i=1}^n{w_i(E_{\tilde {P}}(f_i)-E_p(f_i))} \\ =\sum_{x,y}{\tilde{P}(x)P(y|x)\log P(y|x)+w_0(1-\sum_y{P(y|x)}) \\ +\sum_{i=1}^n{w_i(\sum_{x,y}{\tilde{P}(x,y)f_i(x,y)-\sum_{x,y}{\tilde{P}(x)P(y|x)f_i(x,y)}})}}$ 另L对P的导数为零，导出最大熵模型。

6.7 证明对偶函数的极大化等价于最大熵模型的极大似然估计

写出定义即可证明

7.支持向量机

7.1 什么是函数间隔，什么是几何间隔？

函数间隔： $样本点(x_i,y_i)距离超平面(w,b)的函数间隔定义为$
$\tau_i=y_i(w \cdot x_i+b)$ $超平面 (w, b) 关于数据集 T 的函数间隔为数据集中所有点的函数间隔的最小值$
几何间隔：
$\bar{\tau_i}=\frac{\tau_i}{||w||}$

7.2 什么是线性可分SVM（模型，策略，算法）

模型：
$\cdot x+b)$
策略：最大化几何间隔
$\min_{w,b} \frac{1}{2}{||w||^2} \\ s.t. \ y_i(w \cdot x_i+b)-1 \ge0,i=1,2,...,n$
算法：求解二次规划问题的对偶形式
首先求解对偶问题的 $\alpha^*$ , $\min \frac{1}{2}{\sum_{i=1}^N\sum_{j=1}^N}{\alpha_i \alpha_jy_iy_j(x_i\cdot x_j)}-\sum_{i=1}^N{\alpha_i} \\ s.t. \sum_{i=1}^{N}{\alpha_iy_i}=0 \\ \alpha_i \ge 0,i=1,2,..,N$ 然后求得 $w^*$ , $b^*$ ,得出分离超平面和分类决策函数,
$w^*=\sum_i{\alpha_i^*y_ix_i} \\ b^*=y_j-\sum_{i=1}^N{\alpha_i^*y_i(x_i \cdot x_j)}$
将训练集中 $\alpha_i^*>0$ 的样本点，称为支持向量，只有他们对决策函数的优化起作用。由KKT条件可以导出 $|w^* \cdot x_i+b^*|=1$ 。

7.3 线性SVM（模型，策略，算法）

模型
$\cdot x+b)$
策略
$\min_{w,b,\xi} \frac{1}{2}{||w||^2}+C\sum_{i=1}^N{\xi_i} \\ s.t. \ y_i(w \cdot x_i+b) \ge1-\xi_i,i=1,2,...,n \\ \xi_i \ge 0,i=1,2,..,n$
算法：求解二次规划问题的对偶形式
首先求解对偶问题的 $\alpha^*$ , $\min \frac{1}{2}{\sum_{i=1}^N\sum_{j=1}^N}{\alpha_i \alpha_jy_iy_j(x_i\cdot x_j)}-\sum_{i=1}^N{\alpha_i} \\ s.t. \sum_{i=1}^{N}{\alpha_iy_i}=0 \\ 0 \le \alpha_i \le C,i=1,2,..,N$ 然后求得 $w^*$ , $b^*$ ,得出分离超平面和分类决策函数,
$w^*=\sum_i{\alpha_i^*y_ix_i} \\ b^*=y_j-\sum_{i=1}^N{\alpha_i^*y_i(x_i \cdot x_j)}$
将训练集中 $\alpha_i^*>0$ 的样本点，称为软间隔的支持向量，只有他们对决策函数的优化起作用。
1.若 $\alpha^*_i<C$ ,则 $\xi_i=0$ ,支持向量落在间隔边界上；
2.若 $\alpha^*_i=C$ , $\le \xi_i \le 1$ ,分类正确，支持向量落在间隔边界与分离超平面之间；
3.若 $\alpha^*_i=C$ , $\xi_i =1$ ,支持向量落在分离超平面上；
4.若 $\alpha^*_i=C$ , $\xi_i \ge 1$ ,分类错误，支持向量落在错误间隔边界与分离超平面之间；

7.4 线性SVM的原始优化问题等价于加了正则的合页损失函数

$\min_{w,b}{\sum_{i=1}^{N}{[1-y_i(w \cdot x_i+b)]_+}}+\lambda ||w||^2$ 我们可以认为SVM是优化0-1损失函数的上界-合页损失函数构成的目标函数。

7.5 核技巧在线性SVM中的应用

在对偶问题中，与x有关的项都可以写成内积的形式，所以可以定义在内积空间上非线性变换： $K(x_i,x_j)$ ，来代替原来的内积，达到非线性SVM的效果。
核函数为正定核的充要条件：
$任意x_i \in X,i=1,2,...,m,K(x,z)对应的Gram矩阵半正定.$

7.6 常用核函数

多项式核函数：
$K(x,z)=(x\cdot z+1)^p$
高斯核函数：
$K(x,z)=\exp{(-\frac{||x-z||^2}{2\delta^2})}$

7.7 SMO算法的思路

如果所有变量的解满足KKT条件，那么当前解就是最优解。
否则，选择两个变量，其中一个是严重违反KKT条件的变量，固定其他变量，对这两个变量的优化问题进行解析求解。
分解子问题迭代求解，直至满足KKT条件。

7.8 SVM的优缺点

使用核函数可以向高维空间进行映射，使用核函数可以解决非线性的分类；分类效果较好。
对大规模数据训练比较困难；无法直接支持多分类，但是可以使用间接的方法来做。

8.集成学习

8.1 什么是Bagging?

-从N个样本中有放回的采样N个样本；对采样进行弱学习器的学习；学习多个弱学习器，预测用投票的方法得到结果。

8.2 什么是AdaBoost算法？

原理：通过反复修改数据的权值分布，构建一系列基本分类器，将这些弱分类器线性组合得到强分类器。
具体操作：
1.初始化训练数据的权值分布，在该权值分布的数据集上训练弱分类器 $G_m(x):X \to \{-1,+1\}$ ；
2.计算分类器在数据集上的误差分类率 $e_m=P(G_m(x_i) \ne y_i)=\sum_{i=1}^N{w_{mi}I(G_m(x_i) \ne y_i)}$ ；
3.计算 $G_m(x)$ 的系数 $\alpha_m=\frac{1}{2}\log {\frac{1-e_m}{e_m}}$ ；
4.更新权值分布 $w_{m+1,i}=\frac{w_{mi}}{Z_m}{\exp{(-\alpha_my_iG_m(x_i))}},i=1,2,...,N$ ；
5.构建弱分类器的线性组合 $sign(f(x))=sign(\sum_{m=1}^M{\alpha_mG_m(x)})$ ；

8.3 为何AdaBoost具有适应性？

AdaBoost训练误差有界
$\frac{1}{N}{\sum_{i=1}^N{I(G(x_i) \ne y_i)} \le \frac{1}{N}{\sum_{i}{\exp{(-y_if(x_i))}}}}=\prod_mZ_m$ 对于二分类问题：
$\prod_mZ_m=\prod_m[2\sqrt{e_m(1-e_m)}]=\prod_{m=1}^{M}{\sqrt{1-4{\gamma_m}^2}}\le \exp{(-2\sum_{m=1}^M{\gamma_m^2})}$ 若存在 $\gamma>0,对所有m,有\gamma_m \ge \gamma$ ,那么
$\frac{1}{N}\sum_{i=1}^N{I(G(x_i) \ne y_i)} \le \exp{(-M\gamma^2)}$ 训练误差指数级下降，且不需要知道下界 $\gamma$ 。

8.4 前向分布算法是什么？它与AdaBoost的关联？

前向分布算法：可以将决策函数表示为一系列基函数的线性组合，每次只学习一个基函数及其系数，逐步降低损失函数。
当损失函数是指数函数 $L(y,f(x))=\exp{(-yf(x))}$ 时，前向分布算法具象为AdaBoost。

8.5 提升树

二分类提升树：弱分类器为决策树的AdaBoost
回归提升树：在前向分布算法中，每次更新当前基函数以及系数时，简单拟合当前模型的残差即可。
梯度提升树：在前向分布算法中，每次更新当前基函数以及系数时，拟合损失函数的负梯度在当前模型下的值。

8.6 随机森林

利用Bagging的思想，多次建立决策树，对采样的数据用完全分裂的方式建树；采用投票的方式进行预测或者均值(回归)。
泛化误差的估计：将各个树的未采样样本作为预测样本。

8.7 什么是stacking集成算法？

首先通过bootstrapping等采样的方法训练一系列弱分类器，再将弱分类器的输出当做输入，训练另一个模型得到最终的输出。
可以增加模型的非线性，从而减少模型的偏差。还可以降低泛化误差。

9.EM算法

9.1 EM算法简述

EM算法是含有隐变量的概率模型的极大似然估计或极大后验概率估计的迭代算法，通过迭代求解观测数据的对数似然函数的极大化，实现估计。每次迭代分为两步：
1.E步，求期望，即求 $\log P(Y,Z|\theta)对P(Z|Y,\theta^{(i)})$ 的期望，称为Q函数（ $Q(\theta,\theta^{(i)})$ ）；
2.M步，求极大，即极大化Q函数得到新参数的估计值。

9.2 为什么EM算法能近似实现对观测数据的极大似然估计？

对观测数据的对数似然函数可以写为
$L(\theta)=\log P(Y|\theta)=\log{\sum_Z{P(Y,Z|\theta)}}=\log{(\sum_Z{P(Y|Z,\theta)P(Z|\theta)})}$
在第i次迭代得到的参数估计值是 $\theta^{(i)}$ ，那么
$L(\theta)-L(\theta^{(i)})=\log{(\sum_Z{P(Y|Z,\theta)P(Z|\theta)})}-\log{(P(Y|\theta^{(i)}))} \\ L(\theta) \ge L(\theta^{(i)})+\sum_Z{P(Z|Y,\theta^{(i)})\log{\frac{P(Y,Z|\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}}}=B(\theta,\theta^{(i)})$ 那么我们极大化下界 $B(\theta,\theta^{(i)})$ ，就能达到对极大似然估计的效果
现在对B进行简化
$\theta^{(i+1)}=arg\max_{\theta}{(L(\theta^{(i)})+\sum_Z{P(Z|Y,\theta^{(i)})\log{\frac{P(Y,Z|\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}}})} \\ =arg\max_{\theta}(\sum_Z{P(Z|Y,\theta^{(i)})\log P(Y|Z,\theta)P(Z|\theta)}) \\ =arg\max_{\theta}Q(\theta,\theta^{(i)})$

9.3 EM算法收敛性

EM算法每次迭代后均能提高观测数据的似然函数值，一般条件下，EM算法是收敛的，但不能保证收敛到全局最优。

9.4 怎么用EM算法求解高斯混合模型

高斯混合模型
$P(y|\theta)=\sum_{k=1}^K{\alpha_k\phi(y|\theta_k)} \\ 其中\alpha_k是混合系数，\alpha_k \ge 0,\sum_k{\alpha_k}=1;\\ \phi是高斯分布\phi(y|\theta_k)=\frac{1}{\sqrt{2\pi}\delta_k}{\exp{(-\frac{(y-\mu_k)^2}{2\delta_k^2}})}$
EM算法估计GMM步骤
1.首先确定隐变量，观测数据 $y_j$ 来自第k个分模型记为隐变量 $\gamma_{jk}$ ，那么完全数据的对数似然函数为 $\log{P(y,\gamma |\theta)}=\sum_{k=1}^K{\{n_k\log{}\alpha_k+\sum_{j=1}^N{\gamma_{jk}{[\log(\frac{1}{\sqrt{2\pi}})-\log{\delta_k}-\frac{1}{2\delta_k^2}(y_j-\mu_k)^2]}}\}} \\ 其中n_k=\sum_{j=1}^N{\gamma_{jk}},\sum_{k=1}^K{n_k}=N$ 2.确定Q函数 $Q(\theta,\theta^{(i)})=\sum_{k=1}^K{\{n_k\log{}\alpha_k+\sum_{j=1}^N{\hat\gamma_{jk}{[\log(\frac{1}{\sqrt{2\pi}})-\log{\delta_k}-\frac{1}{2\delta_k^2}(y_j-\mu_k)^2]}}\}} \\ \hat\gamma_{jk}=\frac{\alpha_k\phi(y_j|\theta_k)}{Z},j=1,2,..,N;k=1,2,..,K,是当前模型参数下的概率，称为响应度。$ 3.极大化Q函数，得到结果 $\hat{\mu_k}=\frac{\sum_{j=1}^N{\hat{\gamma}_{jk}y_j}}{\sum_{j=1}^N{\hat{\gamma}_{jk}}},k=1,2,..,K \\ \hat{\delta_k}^2=\frac{\sum_{j=1}^N{\hat{\gamma}_{jk}(y_j-\mu_k)^2}}{\sum_{j=1}^N{\hat{\gamma}_{jk}}},k=1,2,..,K \\ \hat{\alpha}_k=\frac{n_k}{N}=\frac{\sum_{j=1}^N{\hat{\gamma}_{jk}}}{N},k=1,2,..,K$

9.5 F函数的极大-极大算法

F函数： $假设隐变量Z的概率分布为\tilde{P}(Z)，定义分布\tilde{P}与参数\theta的函数F(\tilde{P},\theta)如下$
$F(\tilde{P},\theta)=E_{\tilde{P}}[\log{P(Y,Z|\theta)}]+H(\tilde{P})$ 称为F函数，其中 $H(\tilde{P})=-E_{\tilde{P}}\log{\tilde{P}(Z)}$ 是分布 $\tilde{P}(Z)的熵$ 。
EM算法的一次迭代可由F函数的极大-极大算法实现。
(1)对固定的 $\theta^{(i)}$ ，求 $\tilde{P}^{(i+1)}$ 使 $F(\tilde{P},\theta^{(i+1)})$ 极大化；
(2)对固定的 $\tilde{P}^{(i+1)}$ ，求 $\theta^{(i+1)}$ 使
$F(\tilde{P}^{(i+1)},\theta)$ 极大化；

9.6 广义EM算法

有时候直接极大化Q函数比较困难，我们可以寻找一个 $\theta^{(i+1)}$ 使得 $Q(\theta^{(i+1)},\theta^{(i)})>Q(\theta^{(i)},\theta^{(i)})$ ，我们可以每次只改变参数的一维，其余分量不变（d次条件最大化）。

10.隐马尔科夫模型与条件随机场

10.1 隐马尔科夫模型的基本过程是怎样的？

是关于时序的概率模型，一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成可观测的观测序列。
基本假设：
(1)齐次马尔科夫性假设。t时刻的状态只依赖于t-1时刻的状态，与其他时刻的状态及观测无关。
(2)观测独立性假设。t时刻的观测只依赖于t时刻的状态。
形式定义： $\lambda=(A,B,\pi)$ ，其中 $\pi$ 是初始状态的概率向量，B是状态转移概率矩阵，A是观测概率矩阵。

10.2 隐马尔科夫模型的三个基本问题

概率计算问题：前向-后向算法
(1)前向概率：t时刻部分观测序列为 $o_1,o_2,..,o_t$ ，状态为 $q_i$ 的概率 $\alpha_t(i)=P(o_1,o_2,..,o_t,i_t=q_i|\lambda)$ 计算过程： $初值：\alpha_1(i)=\pi_ib_i(o_1) ,i=1,2,..,N \\ 递推：\alpha_{t+1}(i)=[\sum_{j=1}^N\alpha_t(j)\alpha_{ji}]b_i(o_{t+1}) \\ 终止：P(O|\lambda)=\sum_{i=1}^N{\alpha_T(i)}$
(2)后向概率：在t时刻状态为 $q_i$ 的条件下，从t+1到T的部分观测序列为 $o_{t+1},o_{t+2},...,o_{T}$ 的概率 $\beta_t(i)=P(o_{t+1},o_{t+2},...,o_T|i_t=q_i,\lambda)$ 计算过程： $初值：\beta_T(i)=1,i=1,2,..,N \\ 递推：\beta_t(i)=\sum_{j=1}^N{\alpha_{ij}b_j(o_{t+1})\beta_{t+1}(j)},i=1,2,..,N \\ 终止：P(O|\lambda)=\sum_{i=1}^N{\pi_ib_i(o_1)\beta_1(i)}$ (3)前向-后向算法
$给定模型\lambda，观测序列为O的概率是 \\ P(O|\lambda)=\sum_{i=1}^N\sum_{j=1}^N{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)} t=1,2,..,T-1 \\ 给定模型\lambda和观测O，在时刻t状态处于q_i的概率 \\ \gamma_t(i)=\frac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N{\alpha_t(j)\beta_t(j)}} \\ 给定模型\lambda和观测O，在时刻t状态处于q_i的概率且t+1时刻状态处于q_j的概率 \\ \zeta_t(i,j)=\frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N\sum_{j=1}^N{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}}$
学习问题
(1)监督学习的方法：经验估计近似
(2)Baum-Welch算法(EM算法)
参数更新公式： $a_{ij}=\frac{\sum_{t=1}^{T-1}{\zeta_t(i,j)}}{\sum_{t=1}^{T-1}{\gamma_t(i)}} \\ b_j(k)=\frac{\sum_{t=1,o_t=v_k}^{T-1}{\gamma_t(j)}}{\sum_{t=1}^{T-1}{\gamma_t(j)}} \\ \pi_i=\gamma_1(i)$
预测问题
(1)近似算法：在每个t时刻选择在该时刻最有可能出现的状态（根据 $\gamma_t(i)$ ），从而得到一个状态序列。
(2)维特比算法(动态规划)：从t=1时刻开始，递归的计算时刻t状态为i 的路径集合的最大概率，直至T时刻；T时刻概率最大的路径即为最优路径；向前递归找出路径的每个节点。

10.3 什么是马尔科夫随机场？

又称概率无向图模型，由无向图表示的联合概率分布，结点之间的链接关系表示了联合分布随机变量之间的条件独立性，因此，马尔科夫随机场的联合概率分布可以分解为无向图上最大团上的正值函数的乘积形式。

10.4 什么是条件随机场？什么是线性链条件随机场？

条件随机场是给定输入随机变量X的条件下，输出随机变量Y的条件概率分布模型；条件随机场的最大特点是假设输出变量之间的联合概率分布构成马尔科夫随机场；条件随机场是判别模型。
线性链条件随机场是定义在观测序列与标记序列的条件随机场，一般表示为给定观测序列条件下的标记序列的条件概率分布。满足马尔科夫性 $P(Y_i|X,Y_1,..,Y_{i-1},Y_{i+1},..,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})$ (1)条件随机场的参数化形式 $P(y|x)=\frac{1}{Z(x)}{\exp{(\sum_{i,k}{\lambda_kt_k(y_{i-1},y_i,x,i)}+\sum_{i,l}{\mu_ls_l(y_i,x,i)})}}$ 其中 $t_k$ 是定义在边上的特征函数，称为转移特征； $s_l$ 是定义在点上的特征函数，称为状态特征。都是局部特征函数。
(2)条件随机场的简化形式
将转移特征和状态特征合并成一个向量,然后对i求和得到F $P_w(y|x)=\frac{1}{Z_w(x)}{\exp{(w \cdot F(y,x))}} \\ F(y,x)=(f_1(y,x),f_2(y,x),..,f_K(y,x))^T \\ f_k(y,x)=\sum_{i=1}^nf_k(y_{i-1},y_i,x,i)$ (3)条件随机场的矩阵形式
$P_w(y|x)=\frac{1}{Z_w(x)}{\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)} \\ M_i(y_{i-1},y_i|x)=\exp{(\sum_{k=1}^K{w_kf_k(y_{i-1},y_i,x,i)})}$

10.5 条件随机场的三个基本问题

概率计算问题(前向-反向算法)
$\alpha_i^T(x)=\alpha_{i-1}^T(x)M_i(x) \\ \beta_i(x)=M_{i+1}(x)\beta_{i+1}(x) \\ P(Y_i=y_i|x)=\frac{1}{Z(x)}\alpha_i^T(y_i|x)\beta_i(y_i|x) \\ P(Y_{i-1}=y_{i-1},Y_i=y_i|x)=\frac{1}{Z(x)}\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x) \\ Z(x)=\alpha_n^T(x) \cdot{1}$ 还可以计算特征函数关于条件概率分布和联合概率分布的期望。
学习算法
采用最大似然估计的策略，具体有梯度下降，IIS，拟牛顿法。
预测问题(维特比算法)
(1)首先从前向后递推求出非规范概率的最大值，并记录路径。 $\delta_i(l)=\max_{1 \le j \le m}{\delta_{i-1}(j)+w \cdot F_i(y_{i-1}=j,y_i=l,x)},l=1,2,..,m \\ \psi_i(l)=arg\max_{1 \le j \le m}\{\delta_{i-1}(j)+w \cdot F_i(y_{i-1}=j,y_i=l,x)\},l=1,2,...,m$ (2)从后往前寻找最优路径的节点。

11.聚类方法

11.1 什么是k-means算法？

k-means算法原理：对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。即最小化 $E=\sum_{i=1}^k\sum_{x \in C_i}{||x-\mu_i||_2^2} \\ \mu_i=\frac{1}{|C_i|}{\sum_{x \in C_i}x}$
具体操作：
(1)随机选择k个样本作为初始均值向量；
(2)计算每个样本点对所有均值的距离，按最小距离将样本点归入对应均值的簇；
(3)重新计算均值向量，若收敛，则算法停止，若不收敛，转(2)；
优缺点：
(1)原理比较简单，实现也是很容易，收敛速度快；聚类效果较优；主要需要调参的参数仅仅是簇数k。(2)对于不是凸的数据集比较难收敛；如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳；采用迭代方法，得到的结果只是局部最优；对噪音和异常点比较的敏感。

11.2 如何处理数据集中的样本不平衡？

smote算法
- 1.对于少数类中的每一个样本，计算它到少数类样本集中所有样本的距离，得到其k近邻；
- 2.对于少数类的每一个样本x，随机选出一个k近邻的元素 $\hat{x}$ ,按如下方式构建新样本 $x_new=x+rand(0,1)*(\hat x-x)$
Smote算法的缺陷
- 没有很好的方法确定k值，只能反复尝试
- 会使得类间的边缘模糊，增大分类难度。
EasyEnsemble算法
- 从多数类样本集中随机抽取部分样本，使得跟少数类样本数量相同，训练若干个弱分类器集成学习。

胖胖的小一休

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习知识点

机器学习方法概论监督学习关于数据的基本假设是什么？X和Y具有联合概率分布，训练数据与测试数据按照联合概率分布P(X,Y)独立同分布产生。模型的假设空间是什么？模型属于输入空间到输出空间映射的集合，这个集合就是假设空间，假设空间的确定意味着学习范围的确定。由决策函数或者条件概率表示。统计学习三要素方法＝模型＋策略＋算法损失函数的定义，有哪些损失函数，风险函数的定义？损失...
复制链接

扫一扫

专栏目录