k均值的损失函数_L1、L2、正则、损失函数

本文给出了L2以及L1损失函数的推导过程,通过对比,也能更好的理解L1、L2正则的作用。

L1与L2损失

MSE 均方误差

也称为L2 Loss

均值为

,方差为
的高斯分布的标准形式为

对于

为0,方差
为1的高斯分布为

假设误差服从高斯分布,其中均值

为0,方差
为1,即给定一个
,模型输出真实值
的概率为

N个样本服从iid,即独立同分布,则似然概率为

负对数似然为

去掉第一项常数项,最小化负对数似然,即得到

即为MSE

MSE也称为L2 Loss,是假设误差分布满足高斯分布,利用最大似然得出的。

在误差分布为高斯分布的场景MSE是一个很好的损失函数,不满足高斯分布时,mse不是一个很好的损失函数选择。

MAE 平均绝对误差损失

称为L1 损失。

MAE损失,是假设误差分布即模型预测与真实值的差值,满足laplace分布(

),即给定一个
模型输出真实值
的概率为

与上面推导类似可以得出负对数似然就是MAE损失函数的形式

MSE与MAE比较

MSE相比MAE,一个称作L2损失,一个称作L1损失。

MSE相比MAE损失函数收敛快,梯度会动态变化,MAE梯度始终为1.

MSE相比MAE,对outlier更加敏感,因为平方损失会更大。

L1, L2正则

L2正则:

倾向于参数均匀,类似于L2损失,假设权重参数满足高斯分布,对大数、outlier较为敏感。防止较少特征起主要作用。

假设参数的先验分布为高斯分布,如crf根据最大似然概率计算参数时,采用L2正则,相当于假设参数分布服从高斯分布。

如逻辑回归LR中,采用L2正则,本质是为模型增加了模型参数服从零均值正态分布。

L1正则:

类似于L1损失,假设权重服从拉普拉斯分布,拉普拉斯分布在0时的概率最大,倾向于使得权重为0,即倾向于稀疏表达。会使一些参数为0,可用于特征选择。

L1正则,相当于假设参数的先验分布满足指数分布。

如逻辑回归LR中,采用L1正则,本质是为模型增加了模型参数服从零均值拉普拉斯分布。

ref:

An Introduction to Conditional Random

Fields for Relational Learning

经典好文!一文详尽讲解什么是逻辑回归​mp.weixin.qq.com
b0843b1ebb34f0db1d4d98b66700c04a.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值