为什么交叉熵,极大似然,最小二乘能做损失函数?

最小二乘

L o s s = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 Loss=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2 Loss=m1i=1m(f(xi)yi)2

极大似然估计法如何做损失函数?

什么是极大似然估计法?

似然值是指真实的情况已经发生,我们假设事件有很多概率模型,然后根据概率模型计算真实情况发生的概率。这个概率就叫似然值。

假设投硬币事件,现实世界投十次硬币,7正三反。我们假设理念世界有三个概率模型,分别为

  • 正0.1反0.9
  • 正0.7反0.3
  • 正0.8反0.2

根据这三个概率模型,我们计算现实世界7正3反发生的概率。

  1. 0. 1 7 ⋅ 0. 9 3 0.1^7·0.9^3 0.170.93
  2. 0. 7 7 ⋅ 0. 3 3 0.7^7·0.3^3 0.770.33
  3. 0. 8 7 ⋅ 0. 2 3 0.8^7·0.2^3 0.870.23

上面这三个值就是似然值。

  • 有了似然值的概念,最大似然估计法就自然而然产生了。

    • 硬币既然投出了7正3反的结果。那这个硬币它本来的概率模型,虽然我们永远无法准确的确定。但是选择似然值最大的,那这个似然值对应的概率模型就理所应当更靠近硬币原本的概率模型。

    这就是极大似然估计法

总结

所以当我们知道事情发生的结果,去反推产生这个结果的概率模型的时候,往往就会用到极大似然估计法。所以极大似然估计法就是在计算神经网络里面的概率模型的似然值。

公式推导

根据上述的投硬币的例子,可以用公式表示 P ( C 1 C 2 C 3 , . . . , C 10 ∣ θ ) P(C_1C_2C_3,...,C_{10}|\theta) P(C1C2C3,...,C10θ),其中 C i C_i Ci是现实投一次硬币事件。 θ \theta θ是我们假设的概率模型。现在我们将其对应于神经网络

P N N = P ( y 1 , y 2 , y 3 , . . . , y m ∣ W , b ) P_{NN}=P(y_1,y_2,y_3,...,y_m|W,b) PNN=P(y1,y2,y3,...,ymW,b)

这表示在 W , b W,b W,b概率模型下,现实事件 y 1 , . . . , y m y_1,...,y_m y1,...,ym发生的概率。所以:

P N N = ∏ i = 1 m P ( y i ∣ W , b ) P_{NN}=\prod_{i=1}^mP(y_i|W,b) PNN=i=1mP(yiW,b)

举个例子,如果此时有一个神经网络用来判断某张照片是不是猫。假设有五张照片,现实我们判断三张是猫二张不是。那上述的公式,就是来表示在 W , b W,b Wb的情况下,发生三张是猫二张不是的概率。这个结果就是该神经网络的似然值。当这个似然值最大的时候,我们就可以认定W,b确定的概率模型就是"完美神经网络"的本来的概率模型(这里的完美是指跟人脑一样能够完美判断是否是猫的)

我们知道 W , b W,b Wb可以判断输入的张片是否是猫的概率,我们假设神经模型输出的值为 y i ^ \hat{y_i} yi^。则

P N N = ∏ i = 1 m P ( y i ∣ y i ^ ) P_{NN}=\prod_{i=1}^mP(y_i|\hat{y_i}) PNN=i=1mP(yiyi^)

其次,我们知道 y i y_i yi要么是0,要么是1。也就是说 y i y_i yi符合伯努利分布:

f ( x ) = p x ( 1 − p ) 1 − x = { p , x = 1 1 − p , x = 0 f(x)=p^x(1-p)^{1-x}=\begin{dcases} p, \enspace x=1 \\ 1-p \enspace, x=0 \end{dcases} f(x)=px(1p)1x={p,x=11p,x=0

所以我们能将 P N N P_{NN} PNN展开为

P N N = ∏ i = 1 m y i ^ y i ( 1 − y i ^ 1 − y i ) P_{NN}=\prod_{i=1}^m\hat{y_i}^{y_i}(1-\hat{y_i}^{1-y_i}) PNN=i=1myi^yi(1yi^1yi)

最后,我们习惯上喜欢连加(也有可能是求导方便)。我们对 P N N P_{NN} PNN求对数(log不改变单调性)

l o g P N N = ∑ i = 1 m l o g ( y i ^ y i ( 1 − y i ^ 1 − y i ) ) = ∑ i = 1 m ( y i ⋅ l o g y i ^ + ( 1 − y i ) l o g 1 − y i ^ ) logP_{NN}=\sum_{i=1}^mlog(\hat{y_i}^{y_i}(1-\hat{y_i}^{1-y_i}))\\=\sum_{i=1}^m(y_i·log^{\hat{y_i}}+(1-y_i)log^{1-\hat{y_i}}) logPNN=i=1mlog(yi^yi(1yi^1yi))=i=1m(yilogyi^+(1yi)log1yi^)

回到原本,我们的目的是求似然值最大,所以我们只要求得 max ⁡ l o g P N N \max logP_{NN} maxlogPNN。但是在计算的时候我们更习惯求最小值(优化问题),我们会加个负号,求最小值。

min ⁡ l o g P N N = min ⁡ − ∑ i = 1 m ( y i ⋅ l o g y i ^ + ( 1 − y i ) l o g 1 − y i ^ ) \min logP_{NN}=\min -\sum_{i=1}^m(y_i·log^{\hat{y_i}}+(1-y_i)log^{1-\hat{y_i}}) minlogPNN=mini=1m(yilogyi^+(1yi)log1yi^)

到这里是不是就非常眼熟了?这就是为什么会有极大似然估计法作为损失函数的原因。

交叉熵如何做损失函数?

看这一部分时,需要前置知识。

交叉熵

H ( P , Q ) = ∑ i = 1 n p i ⋅ ( − l o g 2 q i ) = ∑ i = 1 n y i ⋅ ( − l o g 2 y i ^ ) H(P,Q) \\=\sum_{i=1}^np_i·(-log_2^{q_i})\\=\sum_{i=1}^ny_i·(-log_2^{\hat{y_i}}) H(P,Q)=i=1npi(log2qi)=i=1nyi(log2yi^)

其中,有一点要知道 y i y_i yi的取值是有两种的: 1 o r 0 1 \enspace or \enspace 0 1or0,所公式可以继续演变成

= − ∑ i = 1 m ( y i ⋅ l o g 2 y i ^ + ( 1 − y i ) l o g 2 1 − y i ^ ) =-\sum_{i=1}^m(y_i·log_2^{\hat{y_i}}+(1-y_i)log_2^{1-\hat{y_i}}) =i=1m(yilog2yi^+(1yi)log21yi^)

其中,左半部分是模型判断整例时候的损失,右半部分是判断反例的时候的损失。因为 l o g 2 y i ^ log_2^{\hat{y_i}} log2yi^是模型判断样本 x i x_i xi是正例的信息量,所以 l o g 2 1 − y i ^ log_2^{1-\hat{y_i}} log21yi^就是模型判断 x i x_i xi是反例的信息量了。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

这一炉能成

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值