从频率角度和贝叶斯角度看机器学习

频率角度

概率:随机事件发生频率的极限值。

主张:执行参数估计时,参数是确定取值,而数据是随机的。

损失函数:度量模型一次预测的好坏。常用的损失函数有:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。

记作:L(y,f(x))

风险函数(期望损失):度量平均意义下模型预测的好坏。

                              R_{exp}(f)=E_{p}[L(Y,f(X))]=\int _{x*y}L(y,f(x))P(x,y)dxdy

理解为模型f(X)关于联合分布P(X,Y)的平均意义下的损失。

学习的目标就是选择最小化期望风险的模型。但是计算期望风险需要用到联合分布,联合分布又未知,所以导致该问题无法解决。

此时就用到了经验风险(经验损失)

                                                    R_{emp}(f)=\frac{1}{N}\sum _{i=1}^{N}L(y_{i},f(x_{i}))

理解为模型关于训练样本集的平均损失,根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。所以很自然的就用经验风险代替了期望风险,也就变成了经验风险最小化的问题。这个问题就转化成了求解模型也即求解采样分布,而从主张来看,由于频率统计将数据看作随机变量,所以计算采样分布是没有问题的,确定下采样分布之后,参数估计就等效于一个最优化问题,最常用的最优化方法最大似然估计。

贝叶斯角度

概率:客观上事件的可信程度,或者主观上主体对事件的信任程度,建立在对事件的已有知识基础上。

主张:执行参数估计时,视参数为随机变量,而数据为确定取值。

贝叶斯定理的数学表达式;

                                                     P(H|D)=\frac{P(D|H)P(H)}{P(D)}

贝叶斯定理的意义在于将先验概率和后验概率关联起来,刻画了数据对于知识和信念的影响。贝叶斯主义在参数估计时使用最大后验概率估计。当样本容量很大的时候,经验风险最小化能保证有很好的学习效果,而当样本容量很小时,经验风险最小化学习容易产生过拟合现象,结构风险最小化是为了防止过拟合而提出来的策略,其等价于正则化。

                                               R_{rsm}=\frac{1}{N} \sum^{N}_{i=1}L(y_{i},f(x_{i}))+\lambda J(f)

最大后验概率估计就是结构风险最小化的一个例子。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值