机器学习复习0-M开头的各种专业术语名词面试整理

Xu_Wave

已于 2022-04-18 00:26:01 修改

阅读量757

点赞数 2

分类专栏：机器学习文章标签：机器学习自然语言处理

于 2020-04-28 12:38:03 首次发布

本文链接：https://blog.csdn.net/qq_22795223/article/details/105810175

版权

机器学习专栏收录该内容

14 篇文章 4 订阅

订阅专栏

1. MLE、MAP、贝叶斯

在这里插入图片描述
这两者的区别就是在于求解最优参数时，有没有加入先验知识 $P (θ)$ 。
也就是MAP融入了待估计量θ的先验分布在其中，因此MAP可以看做规则化的MLE，当 $P (θ)$ 均匀分布时，两者相等。

这也就解释了，为什么MLE比MAP更容易过拟合。因为MLE在求解最优θ时，没有对θ有先验的指导。而MAP加入了对θ的先验指导，例如L2正则化，那么就不易过拟合了。
举个例子：
同样的逻辑回归。
未正则化的逻辑回归就是MLE。
正则化的逻辑回归就是MAP。

与上述两个概念都不同的是贝叶斯模型（Bayesion Network），也被称为概率图模型。这里不是指朴素贝叶斯。而是说下面的这种学习思路。

MLE和MAP求解的都是一个最优的θ值，在预测时只有最优的θ参与预测过程。
贝叶斯模型求解的是θ的后验分布P(θ|D)，而不是最大化的后验分布。
因此贝叶斯模型在某种程度上可以看作是一个集成模型，在预测时，让所有θ都参与预测，并将预测结果以后验概率P(θ|D)作为权重进行加和作为最终预测值。

其中，关于后验分布的理解，见此。

为什么要用Bayesian呢？
还举上面逻辑回归的例子，如果是逻辑回归用Bayesian方式来实现，那么训练所得的就是一个后验分布P(θ|D)，预测时需要用所有θ都产生一个预测值，然后用后验分布加权求和。如果θ是无穷多的，一般就采样足够的次数，再加权求和。
好处：

小数据集上的集成优势，不易过拟合；
引入先验的一种很好的方式；
能够表达不确定程度。MLE和MAP的最优θ，预测结果是确定的；而贝叶斯的预测结果是不稳定的，即能够表达其对于一个结果的不确定程度。

2. MAE、MSE

在做回归建模相关任务时（分类任务评价指标之前写过），最常用评价指标是MAE、MSE、RMSE中的一个或多个，但如何根据自己的具体任务场景(数据分布)选择更合适的模型评估指标指标呢？这里我们就要需要弄明白MAE与MSE之间到底有什么不同。

MAE

MAE(mean absolute error)，即平均绝对值误差，也可以看做L1损失，是一种用于回归模型的常用损失函数
在这里插入图片描述
图像为：

MSE

MSE(mean squared error)，即均方误差，可以看做是一种L2损失，也是一种最常用的回归损失函数。MSE是求预测值与真实值之间距离的平方和
在这里插入图片描述
图像为：

MSE（L2损失）与MAE（L1损失）的区别

结论：MSE计算简便，但MAE对异常点有更好的鲁棒性。

观察MAE和RMSE（即MSE的平方根，同MAE在同一量级中）在两个例子中的计算结果。
第一个例子中，预测值和真实值很接近，误差较小。第二个例子中，因为存在一个异常点，而导致误差非常大。
在这里插入图片描述
MSE对误差取了平方，相当于增大了误差。如果数据中存在异常点，那么误差就会远大于MAE。并且MSE在梯度更新时，会以牺牲其他正常样本误差为代价进行更新，即总体朝着减小损失的方向更新，这降低了模型性能。所以说，在数据中存在异常点时，MAE会比MSE更好用、更稳定鲁棒一点。
但MAE在神经网络中的梯度是固定的，甚至一些位置不可导，可以从图像中看到；而MSE的梯度会随损失增大而增大，减小而减小。