最大似然与经验风险最小化
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计
首先给出对数形式的ERM的公式:
min1n∑i=1nL(yi,p(yi∣xi))
其中 L(yi,f(xi)) 是损失函数,输出预测值为 f(xi) ,n是观察到的样本数。
最大似然的前提是从模型总体随机抽取样本观测值,所有的采样都是独立同分布的。
假设 x1,x2,...,xn 为独立同分布的采样, θ 为模型参数,f为我们使用的模型,我们使用条件概率分布,遵循独立同分布。假设我们需要根据观察数据 x 估计没有观察到的总体参数
f(x1,x2,...,xn∣θ)=f(x1∣θ)×f(x2∣θ)×...×f(xn∣θ)
此时似然定义为:
L(θ∣x1,x2,...,xn)=P(x1,x2,...,xn∣θ)=∏i&