交叉熵损失函数_交叉熵损失函数和均方差损失函数引出

本文探讨了概率与统计的区别,并介绍了交叉熵和均方差损失函数在分类和回归问题中的应用。深入讲解了最大似然估计、最大后验概率估计以及贝叶斯学派和频率学派的不同观点。同时,文章还涉及了线性回归、岭回归和LASSO回归中的正则化,以及它们与Gaussian和Laplace分布的关系。
摘要由CSDN通过智能技术生成

5a15b3a68d681b557acd95b828af4085.png

交叉熵、均方差损失函数,加正则项的损失函数,线性回归、岭回归、LASSO回归等回归问题,逻辑回归,感知机等分类问题、经验风险、结构风险,极大似然估计、拉普拉斯平滑估计、最大后验概率估计、贝叶斯估计,贝叶斯公式,频率学派、贝叶斯学派,概率、统计……………… 记录被这些各种概念困扰的我,今天终于理出了一些头绪。

概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

频率学派认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率。他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

贝叶斯学派认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。 他们不试图对事件本身进行建模,而是从旁观者的角度来说。因此对于同一个事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同。他们认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计(MAP),这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位。极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那她和极大似然估计就如出一辙了。

贝叶斯公式:

似然(likelihood)这个词其实和概率(probability)是差不多的意思,似然函数概率函数却是两个不同的概念(其实也很相近就是了)。对于这个函数:

输入有两个:x表示某一个具体的数据;θ表示模型的参数。如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。

最大似然估计(MLE)是求参数θ, 使似然函数

最大。

拉普拉斯平滑估计

bf7bdf81864c60e79a73f31827c07ad9.png

最大后验概率估计(MAP)则是想求θ使

最大。当数据量增大MAP会逼近MLE。

374a3af1ca5a4dfc1e515f8d6cee3f7b.png

经验风险最小化结构风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低;而结构风险最小化是在经验风险最小化的基础上约束模型的复杂度,使其在训练数据集的损失降到最低的同时,模型不至于过于复杂,相当于在损失函数上增加了正则项,防止模型出现过拟合状态。

交叉熵均方差(---最大似然)损失函数是在机器学习中经常被用到的两个损失函数,他们分别适用于分类问题回归问题。分类问题意在学习一个概率分布函数,而交叉熵可以很好地代表两个概率分布的差异性,反馈差异帮助学习概率分布函数;回归问题意在学习一个拟合函数,而均方误差可以很好的反馈差异,拟合出逼近真实的函数,而求解均方误差的算法叫做最小二乘法。到目前我们的讨论,都是完全基于现有的样本(机器学习中喜欢称之为数据),没有掺杂任何的先验知识,完全的真实样本驱动,但现实使用时,会出现过分的学习现有样本的情况(过拟合),这时候很多人都知道可以加入正则项(加正则项的损失函数---最大后验概率)来避免过拟合的问题,那这时候除了样本的驱动,我们又加入了什么信息呢?我们利用了贝叶斯原理,不再是完全的频率学派思想,加入了先验知识。从我们平时最为熟悉的线性回归、Ridge 回归和LASSO 回归入手。

从概率论的角度:

线性回归的解析解可以用 Gaussian 分布以及最大似然估计求得

岭回归可以用 Gaussian 分布和最大后验估计解释(L2正则)

LASSO回归可以用 Laplace 分布和最大后验估计解释(L1正则)

从贝叶斯角度,正则项等价于引入参数

的先验概率分布。常见的L1/L2正则,分别等价于引入先验信息:参数符合拉普拉斯分布/高斯分布。分类问题同样。

参考资料

  • https://blog.csdn.net/u011508640/article/details/72815981
  • 张小磊:极大似然估计与最大后验概率估计
  • https://blog.csdn.net/zhuxiaodong030/article/details/54408786
  • 李文哲:机器学习中的MLE、MAP、贝叶斯估计
  • 李航:《统计学习方法》
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值