1.2.11 【Deep Learning翻译系列】Explanation of Logistic Regression Cost Function 对数几率回归代价函数的说明

视频地址

本视频给出在对数几率回归使用这个成本函数的理由。
在之前的对数几率回归中,预测 y ^ = σ ( ω T x + b ) , \hat y=\sigma(\omega^Tx+b), y^=σ(ωTx+b),
其中, σ ( z ) = 1 1 + e − z \sigma(z)=\frac 1 {1+e^{-z}} σ(z)=1+ez1
作者对此的解释是: y ^ = P ( y = 1 ∣ x ) \hat y=P(y=1|x) y^=P(y=1x) 。 即对于给定的一组输入的特征量 x x x ,其对应的 y = 1 y=1 y=1 的机会。
另一种说法是,如果 y = 1 y=1 y=1 ,那么 P ( y ∣ x ) = y ^ P(y|x)=\hat y P(yx)=y^
反之,如果如果 y = 1 y=1 y=1 ,那么 P ( y ∣ x ) = 1 − y ^ P(y|x)=1-\hat y P(yx)=1y^
所以综合考虑这两种情况, P ( y ∣ x ) = y ^ y ( 1 − y ^ ) 1 − y P(y|x)=\hat y^y(1-\hat y)^{1-y} P(yx)=y^y(1y^)1y

因为 log ⁡ \log log 函数是单调递增的,对 P ( y ∣ x ) P(y|x) P(yx) 取对数,得到
log ⁡ P ( y ∣ x ) = y log ⁡ y ^ + ( 1 − y ) log ⁡ ( 1 − y ^ ) = − L ( y , y ^ ) , \log P(y|x)=y\log\hat y+(1-y)\log(1-\hat y)=-L(y,\hat y), logP(yx)=ylogy^+(1y)log(1y^)=L(y,y^),这是单个样本的成本函数。

至于在 M M M 个样本上的整体的损失函数,如果假设训练实例独立抽取或独立同分布(IID),那么,
P ( t r a i n i n g ) = Π i = 1 n P ( y ( i ) ∣ x ( i ) ) . P(training)=\Pi_{i=1}^nP(y^{(i)}|x^{(i)}). P(training)=Πi=1nP(y(i)x(i)).

所以,如果你想进行最大似然估计,那么最大化 P ( t r a i n i n g ) P(training) P(training) 与最大化它的对数是等同的。即最大化以下式子:
log ⁡ P ( t r a i n i n g ) = ∑ i = 1 n log ⁡ P ( y ( i ) ∣ x ( i ) ) = − ∑ i = 1 n − L ( y ( i ) , y ^ ( i ) ) . \log P(training)=\sum_{i=1}^n\log P(y^{(i)}|x^{(i)})=-\sum_{i=1}^n-L(y^{(i)},\hat y^{(i)}). logP(training)=i=1nlogP(y(i)x(i))=i=1nL(y(i),y^(i)).

统计学中有一个被称为“极大似然估计”的原理,它选择能够最大化 log ⁡ P ( t r a i n i n g ) \log P(training) logP(training) 的参数。
对数几率回归要最小化的的代价函数 J ( ω , b ) = 1 N ∑ i = 1 n − L ( y ( i ) , y ^ ( i ) ) J(\omega,b)=\frac 1 N\sum_{i=1}^n-L(y^{(i)},\hat y^{(i)}) J(ω,b)=N1i=1nL(y(i),y^(i)) 就相当于在各个样本被独立同分布(IID)抽取情况下概率的极大似然估计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值