机器学习复习0-M开头的各种专业术语名词面试整理

1. MLE、MAP、贝叶斯

在这里插入图片描述
这两者的区别就是在于求解最优参数时,有没有加入先验知识 P ( θ ) P(θ) P(θ)
也就是MAP融入了待估计量θ的先验分布在其中,因此MAP可以看做规则化的MLE, P ( θ ) P(θ) P(θ)均匀分布时,两者相等

这也就解释了,为什么MLE比MAP更容易过拟合。因为MLE在求解最优θ时,没有对θ有先验的指导。而MAP加入了对θ的先验指导,例如L2正则化,那么就不易过拟合了。
举个例子:
同样的逻辑回归。
未正则化的逻辑回归就是MLE。
正则化的逻辑回归就是MAP。

与上述两个概念都不同的是贝叶斯模型(Bayesion Network),也被称为概率图模型。这里不是指朴素贝叶斯。而是说下面的这种学习思路。

MLE和MAP求解的都是一个最优的θ值,在预测时只有最优的θ参与预测过程
贝叶斯模型求解的是θ的后验分布P(θ|D),而不是最大化的后验分布
因此贝叶斯模型在某种程度上可以看作是一个集成模型,在预测时,让所有θ都参与预测,并将预测结果以后验概率P(θ|D)作为权重进行加和作为最终预测值

其中,关于后验分布的理解,见此

为什么要用Bayesian呢?
还举上面逻辑回归的例子,如果是逻辑回归用Bayesian方式来实现,那么训练所得的就是一个后验分布P(θ|D),预测时需要用所有θ都产生一个预测值,然后用后验分布加权求和。如果θ是无穷多的,一般就采样足够的次数,再加权求和
好处:

  1. 小数据集上的集成优势,不易过拟合;
  2. 引入先验的一种很好的方式;
  3. 能够表达不确定程度。MLE和MAP的最优θ,预测结果是确定的;而贝叶斯的预测结果是不稳定的,即能够表达其对于一个结果的不确定程度。

2. MAE、MSE

在做回归建模相关任务时(分类任务评价指标之前写过),最常用评价指标是MAE、MSE、RMSE中的一个或多个,但如何根据自己的具体任务场景(数据分布)选择更合适的模型评估指标指标呢?这里我们就要需要弄明白MAE与MSE之间到底有什么不同

MAE

MAE(mean absolute error),即平均绝对值误差,也可以看做L1损失,是一种用于回归模型的常用损失函数
在这里插入图片描述
图像为:
在这里插入图片描述

MSE

MSE(mean squared error),即均方误差,可以看做是一种L2损失,也是一种最常用的回归损失函数。MSE是求预测值与真实值之间距离的平方和
在这里插入图片描述
图像为:
在这里插入图片描述

MSE(L2损失)与MAE(L1损失)的区别

结论:MSE计算简便,但MAE对异常点有更好的鲁棒性。

观察MAERMSE(即MSE的平方根,同MAE在同一量级中)在两个例子中的计算结果。
第一个例子中,预测值和真实值很接近,误差较小。第二个例子中,因为存在一个异常点,而导致误差非常大。
在这里插入图片描述
MSE对误差取了平方,相当于增大了误差。如果数据中存在异常点,那么误差就会远大于MAE。并且MSE在梯度更新时,会以牺牲其他正常样本误差为代价进行更新,即总体朝着减小损失的方向更新,这降低了模型性能。所以说,在数据中存在异常点时,MAE会比MSE更好用、更稳定鲁棒一点。
但MAE在神经网络中的梯度是固定的,甚至一些位置不可导,可以从图像中看到;而MSE的梯度会随损失增大而增大,减小而减小。

如果只把异常值当作受损数据,则应选用MAE损失函数;如果需要把检测出来,则使用MSE。
当两者需求同时存在时,就需要考虑其他的更合适的损失函数了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Xu_Wave

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值