k均值的损失函数_L1、L2、正则、损失函数

最新推荐文章于 2024-05-28 00:15:00 发布

weixin_39603492

最新推荐文章于 2024-05-28 00:15:00 发布

阅读量355

点赞数

文章标签： k均值的损失函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39603492/article/details/111645186

版权

本文给出了L2以及L1损失函数的推导过程，通过对比，也能更好的理解L1、L2正则的作用。

L1与L2损失

MSE 均方误差

也称为L2 Loss

均值为

，方差为

的高斯分布的标准形式为

对于

为0，方差

为1的高斯分布为

假设误差服从高斯分布，其中均值

为0，方差

为1，即给定一个

，模型输出真实值

的概率为

即

N个样本服从iid，即独立同分布，则似然概率为

负对数似然为

去掉第一项常数项，最小化负对数似然，即得到

即为MSE

MSE也称为L2 Loss，是假设误差分布满足高斯分布，利用最大似然得出的。

在误差分布为高斯分布的场景MSE是一个很好的损失函数，不满足高斯分布时，mse不是一个很好的损失函数选择。

MAE 平均绝对误差损失

称为L1 损失。

MAE损失，是假设误差分布即模型预测与真实值的差值，满足laplace分布(

)，即给定一个

模型输出真实值

的概率为

与上面推导类似可以得出负对数似然就是MAE损失函数的形式

即

MSE与MAE比较

MSE相比MAE，一个称作L2损失，一个称作L1损失。

MSE相比MAE损失函数收敛快，梯度会动态变化，MAE梯度始终为1.

MSE相比MAE，对outlier更加敏感，因为平方损失会更大。

L1， L2正则

L2正则：

倾向于参数均匀，类似于L2损失，假设权重参数满足高斯分布，对大数、outlier较为敏感。防止较少特征起主要作用。

假设参数的先验分布为高斯分布，如crf根据最大似然概率计算参数时，采用L2正则，相当于假设参数分布服从高斯分布。

如逻辑回归LR中，采用L2正则，本质是为模型增加了模型参数服从零均值正态分布。

L1正则：

类似于L1损失，假设权重服从拉普拉斯分布，拉普拉斯分布在0时的概率最大，倾向于使得权重为0，即倾向于稀疏表达。会使一些参数为0，可用于特征选择。

L1正则，相当于假设参数的先验分布满足指数分布。

如逻辑回归LR中，采用L1正则，本质是为模型增加了模型参数服从零均值拉普拉斯分布。

ref:

An Introduction to Conditional Random

Fields for Relational Learning

经典好文！一文详尽讲解什么是逻辑回归mp.weixin.qq.com

weixin_39603492

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。