机器学习:二元逻辑回归的损失函数

损失函数的概念

在学习决策树时,曾经提到过两种模型表现:在训练集上的表现,和在测试集上的表现。建模,是追求模型在测试集上的表现最优,因此模型的评估指标往往是用来衡量模型在测试集上的表现的。然而,逻辑回归有着基于训练数据求解参数的需求,并且希望训练出来的模型能够尽可能地拟合训练数据,即模型在训练集上的预测准确率越靠近100%越好。
因此,**使用”损失函数“这个评估指标,来衡量参数为的模型拟合训练集时产生的信息损失的大小,并以此衡量参数的优劣。**如果用一组参数建模后,模型在训练集上表现良好,就说模型拟合过程中的损失很小,损失函数的值很小,这一组参数就优秀;相反,如果模型在训练集上表现糟糕,损失函数就会很大,模型就训练不足,效果较差,这一组参数也就比较差。即是说,在求解参数时,追求损失函数最小,让模型在训练数据上的拟合效果最优,即预测准确率尽量靠近100%。

损失函数

衡量参数的优劣的评估指标,用来求解最优参数的工具
损失函数小,模型在训练集上表现优异,拟合充分,参数优秀
损失函数大,模型在训练集上表现差劲,拟合不足,参数糟糕
我们追求,能够让损失函数最小化的参数组合
注意:没有”求解参数“需求的模型没有损失函数,比如KNN,决策树
逻辑回归的损失函数是由极大似然估计推导出来的,具体结果可以写作:
J ( ω ) = − ∑ i = 1 m ( y i ∗ l o g ( y ω ( x i ) ) + ( 1 − y i ) ∗ l o g ( 1 − y ω ( x i ) ) ) J(\omega)=-\sum^m_{i=1}(y_i*log(y_\omega(x_i))+(1-y_i)*log(1-y_\omega(x_i))) J(ω)=i=1m(yilog(yω(xi))+(1yi)log(1yω(xi)))
其中, ω表示求解出来的一组参数,m是样本的个数, y i y_i yi是样本i上真实的标签, y ω ( x i ) y_\omega(x_i) yω(xi)是样本i上,基于参数ω计算出来的逻辑回归返回值,xi是样本i各个特征的取值。我们的目标,就是求解出使J(ω)最小的ω取值。注意,在逻辑回归的本质函数y(x)里,特征矩阵x是自变量,参数是ω。但在损失函数中,ω是损失函数的自变量,x和y都是已知的特征矩阵和标签,相当于是损失函数的参数。不同的函数中,自变量和参数各有不同,因此,需要在数学计算中,尤其是求导的时候避免混淆。
由于追求损失函数的最小值,让模型在训练集上表现最优,可能会引发另一个问题:如果模型在训练集上表示优秀,却在测试集上表现糟糕,模型就会过拟合。虽然逻辑回归和线性回归是天生欠拟合的模型,但还是需要控制过拟合的技术来帮助调整模型,对逻辑回归中过拟合的控制,通过正则化来实现

二元逻辑回归损失函数的数学解释,公式推导

虽然我们质疑过”逻辑回归返回概率“这样的说法,但不可否认逻辑回归的整个理论基础都是建立在这样的理解上的。在这里,基于极大似然法来推导⼆二元逻辑回归的损失函数,这个推导过程能够帮助我们了解损失函数怎么得来的,以及为什么J(ω)的最小化能够实现模型在训练集上的拟合最好。
我们的目标:让模型对训练数据的效果好,追求损失最小。
二元逻辑回归的标签服从伯努利利分布(即0-1分布),因此,可以将一个特征向量为x,参数为ω的模型中的一个样本i的预测情况表现为如下形式:
样本i在由特征向量xi和参数ω组成的预测函数中,样本标签被预测为1的概率为:
P 1 = P ( y ^ i ) = 1 ∣ x i , ω ) = y ω ( x i ) P_1=P(\hat{y}_i)=1|x_i,\omega)=y_{\omega}(x_i) P1<

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值