关于最大似然与交叉熵损失函数和最小二乘法的思考

引言

渣硕学习机器学习也有一段日子了,平时也是把最大似然、交叉熵、最小二乘法当做最常见的方法用了,久而久之,已经不太关注其来源。最近师兄们在忙着找工作,然后其中一个X姓师兄就在组会上提出说面试中问到为什么logistic回归的损失函数使用到的交叉熵而不是最小二乘,突然一下子懵逼了,平时使用的最多的方法,包括在神经网络中也是使用的是交叉熵的方法,也习惯了其所以然,却没有考虑过其之所以然的问题,这就很尴尬了。师兄说了一些原因,归咎起来,有几点:1,交叉熵方法更多的是用于分类,而最小二乘更多的是用于回归;1,方便计算。确实有这些方面的原因,后来回来之后,自己仔细思索了一下,回想起研一开始看过的为数不多的几集Andrew NG的斯坦福课程视频,突然有了些灵感,也觉得有些心得分享一下(PS:大神请让道,数学符号可能有些许不规范,在此为本渣硕的数学功底又捏了一把汗)。

从极大似然说去

极大似然是机器学习里面最基础的概念了,就轻微的再复述一下:
假设X的概率分布满足一个分布 f(x;θ) ,也就是在给定 θ 的情况下,x的分布情况,给定一串观测结果 x1,x2...xn ,我们现在是要估计参数 θ ,使得 P(θ|X=xn) 最大,根据贝叶斯公式 P(A|B)=P(B|A)P(A) 我们可以通过使 P(X=xn|θ) 最大来实现,这里 | 并不严格指的是条件概率,而是在给定的 θ 的情况下, P(X=xn) 的概率。而这个式子就是似然函数 ι(θ) 。通过极大化似然函数,然后求取参数 θ 就能得到模型结果。

关于指数分布家族和广义线性模型GLM(General Linear Model)

因为这一部分涉及一些公式推导,而这些推导也只是一些简单的数学变换,所以这一部分直接引用的是牛顿方法&指数族分布&GLM的文章,在这里向原作者表示感谢。指数族分布的公式为:

P(y;η)=b(y)exp(ηTT(y)a(η))

其中, η 成为分布的自然参数(nature parameter); T(y) 是充分统计量(sufficient statistic),通常 T(y)=y 。当参数 a、b、T 都固定的时候,就定义了一个以η为参数的函数族。为什么要使用这种模式,WIKIPEDIA给出了一些原因,就不在这儿赘述了,读者可以自己去搜索,总之其有很多统计学方面的好处。
关于下面两种分布:

  1. 伯努利分布
    伯努利分布式对于0、1问题建模的, Bernoul

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值