从频率角度和贝叶斯角度看机器学习

最新推荐文章于 2022-11-14 11:47:45 发布

云水--禅心

最新推荐文章于 2022-11-14 11:47:45 发布

阅读量706

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012794724/article/details/81252474

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

频率角度

概率：随机事件发生频率的极限值。

主张：执行参数估计时，参数是确定取值，而数据是随机的。

损失函数：度量模型一次预测的好坏。常用的损失函数有：0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。

记作： L(y,f(x))

风险函数（期望损失）：度量平均意义下模型预测的好坏。

$R_{exp}(f)=E_{p}[L(Y,f(X))]=\int _{x*y}L(y,f(x))P(x,y)dxdy$

理解为模型 f(X) 关于联合分布 P(X,Y) 的平均意义下的损失。

学习的目标就是选择最小化期望风险的模型。但是计算期望风险需要用到联合分布，联合分布又未知，所以导致该问题无法解决。

此时就用到了经验风险（经验损失）

$R_{emp}(f)=\frac{1}{N}\sum _{i=1}^{N}L(y_{i},f(x_{i}))$

理解为模型关于训练样本集的平均损失，根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险。所以很自然的就用经验风险代替了期望风险，也就变成了经验风险最小化的问题。这个问题就转化成了求解模型也即求解采样分布，而从主张来看，由于频率统计将数据看作随机变量，所以计算采样分布是没有问题的，确定下采样分布之后，参数估计就等效于一个最优化问题，最常用的最优化方法最大似然估计。

贝叶斯角度

概率：客观上事件的可信程度，或者主观上主体对事件的信任程度，建立在对事件的已有知识基础上。

主张：执行参数估计时，视参数为随机变量，而数据为确定取值。

贝叶斯定理的数学表达式;

$P(H|D)=\frac{P(D|H)P(H)}{P(D)}$

贝叶斯定理的意义在于将先验概率和后验概率关联起来，刻画了数据对于知识和信念的影响。贝叶斯主义在参数估计时使用最大后验概率估计。当样本容量很大的时候，经验风险最小化能保证有很好的学习效果，而当样本容量很小时，经验风险最小化学习容易产生过拟合现象，结构风险最小化是为了防止过拟合而提出来的策略，其等价于正则化。

$R_{rsm}=\frac{1}{N} \sum^{N}_{i=1}L(y_{i},f(x_{i}))+\lambda J(f)$

最大后验概率估计就是结构风险最小化的一个例子。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。