1.2.3 【Deep Learning翻译系列】Logistic Regression Cost Function 对数几率回归的代价函数

在之前的视频中,您看到了对数几率回归模型 y=σ(WTx+b),where σ=11+ez y = σ ( W T x + b ) , w h e r e   σ = 1 1 + e − z
要训​​练对数几率回归模型的参数 W W b,您需要定义一个代价函数。

您有一组训练集,希望找到参数 W W b,至少你在训练集上的预测 y^(i) y ^ ( i ) 接近ground truth标签 y(i) y ( i )
现在,让我们看看我们可以使用什么损失函数(或称为误差函数)来衡量算法的效果。

你可以将算法输出 y^ y ^ 时的损失定义为 L(y^,y)=(y^y)2 L ( y ^ , y ) = ( y ^ − y ) 2 L(y^,y)=12(y^y)2 L ( y ^ , y ) = 1 2 ( y ^ − y ) 2
事实证明,在对数几率回归中,人们通常不这样做。因为你会发现我们稍后讨论的优化问题变成非凸的,你最终会遇到多个局部最优化的优化问题。所以梯度下降可能无法找到全局最优。

但是直觉就是您需要定义损失函数 L L 来衡量当真实标签是y时我们的输出结果 y^ y ^ 有多好。平方误差似乎可能是一个合理的选择,只不过它使梯度下降效果不佳。因此,在对数几率回归中,我们将定义一个不同的损失函数 L(y^,y)=ylog(y^)(1y)log(1y^) L ( y ^ , y ) = − y l o g ( y ^ ) − ( 1 − y ) l o g ( 1 − y ^ ) ,它与平方误差具有相似的作用,但这个损失函数会给我们一个凸的优化问题。

要理解为什么这是有道理的,我们来看看这两种情况。
在第一种情况下,假设 y y 等于1,那么 1y=0 1 − y = 0 此时损失函数为 log(y^) − l o g ( y ^ ) y^ y ^ 越接近 1 1 时损失越接近0
另一种情况是如果 y y 等于0,那么损失函数中的第一项等于零,所以损失变成了 log(1y^) − l o g ( 1 − y ^ ) y^ y ^ 越接近 0 0 时损失越小。

损失函数(Loss Function)是针对单个训练样例定义的。它衡量单个训练样本的表现。
现在要定义一个代价函数(Cost Function),它衡量模型适合整个训练集的程度,J(W,b)=1mi=1mL(y^i,yi)

所以损失函数只适用于单个训练示例,而代价函数适用于模型的参数。
因此,在训练逻辑回归模型时,我们将尝试找到参数 W W b,最小化代价函数 J J <script type="math/tex" id="MathJax-Element-5791">J</script>。
因此,您刚刚看到了逻辑回归算法的设置,训练示例的损失函数以及算法参数的总体代价函数。
这里写图片描述
事实证明,逻辑回归可以被看作是一个非常小的神经网络。在下一个视频中,我们将详细介绍这一点,以便您可以开始直观了解神经网络的功能。因此,让我们继续下一个关于如何将逻辑回归视为非常小的神经网络的视频。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值