【机器学习入门】交叉熵损失函数与MLE准则

本文介绍了交叉熵损失函数与最大似然估计(MLE)之间的关系,强调它们在监督学习中的重要性。文章通过线性回归、逻辑回归和多分类问题的实例详细解释了交叉熵在不同情况下的应用,并阐述了如何通过最小化交叉熵损失函数来调整模型,使其逼近真实数据分布。
摘要由CSDN通过智能技术生成

0 总结

先放出结论方便查看,细节的推导可以阅读后续章节。

0.1 MLE与交叉熵

MLE准则导出的损失函数与交叉熵损失函数等价,如下:
J ( θ ) = − E x , y ∼ P d a t a [ l o g P m o d e l ( y ∣ x ; θ ) ] J(\pmb\theta)=-\mathbb{E}_{\pmb x,\pmb y\sim P_{data}}[logP_{model}(\pmb y|\pmb x;\pmb\theta)] J(θθθ)=Exxx,yyyPdata[logPmodel(yyyxxx;θθθ)]
监督学习是给定输入 x \pmb x xxx(样本)和输出 y \pmb y yyy(标签)来对模型进行训练的一个过程。

  • 从最大似然估计准则的角度看,这个过程可以看成是对条件概率 P ( Y ∣ X ; θ ) P(Y|X;\pmb\theta) P(YX;θθθ)的一个最大似然估计过程。
  • 从相对熵和交叉熵的角度看,这个过程可以看成调整 Q ( X ) Q(X) Q(X)使其逼近 P ( X ) P(X) P(X)的过程,而 H ( P , Q ) H(P,Q) H(P,Q)的最小值就是 H ( P ) H(P) H(P),那么我们对交叉熵 H ( P , Q ) H(P,Q) H(P,Q)进行最小化而获得的 Q ( X ) Q(X) Q(X)则应该能够很好逼近 P ( X ) P(X) P(X)

详见第4节

0.2 交叉熵损失函数具体形式

下列符号中: N N N为样本数, M M M为类别数

1.线性回归问题

J ( θ ) = − E x , y ∼ P d a t a [ l o g P m o d e l ( y ∣ x ; θ ) ] = 1 N ∣ ∣ y − y ^ ∣ ∣ 2 2 \begin{aligned} J(\pmb\theta)&=-\mathbb{E}_{\pmb x,\pmb y \sim P_{data}}[logP_{model}(\pmb y| \pmb x;\pmb\theta)]\\ &=\frac{1}{N}||\pmb y -\pmb{\hat y}||^2_2 \end{aligned} J(θθθ)=Exxx,yyyPdata[logPmodel(yyyxxx;θθθ)]=N1yyyy^y^y^22

2.logistic回归(二分类问题)

J ( θ ) = 1 N ∑ i = 1 N − y i l o g y i ^ − ( 1 − y i ) l o g ( 1 − y i ^ ) J(\pmb\theta)=\frac{1}{N}\sum_{i=1}^N-y_ilog\hat{y_i}-(1-y_i)log(1-\hat{y_i}) J(θθθ)=N1i=1Nyilogyi^(1yi)log(1yi^)其中:

  • y i y_i yi为0或1,若类别为A则为1,类别为B则为0
  • y i ^ \hat{y_i} yi^为模型输出的将样本分类为A的概率,则 ( 1 − y i ^ ) (1-\hat{y_i}) (1yi^)为分类成B的概率, y i ^ = σ s i g m o i d ( θ T x i + b ) \hat{y_i}=\sigma_{sigmoid}(\pmb\theta^T\pmb{x_i}+b) yi^=σsigmoid(θθθTxixixi+b)

3.多分类问题

J ( θ ) = − 1 N ∑ i = 1 N ∑ j = 1 M y i , j l o g y ^ i , j J(\pmb\theta)=-\frac{1}{N}\sum_{i=1}^N\sum_{j=1}^{M}y_{i,j}log\hat{y}_{i,j} J(θθθ)=N1i=1Nj=1Myi,jlogy^i,j其中:

  • y i , j y_{i,j} yi,j为0或1,若类别 j j j符合样本 i i i则取值为1,不符合则为0
  • y ^ i , j \hat{y}_{i,j} y^i,j为模型输出的将样本 i i i分类为类别 j j j的概率, y ^ i , j = σ s o f t m a x ( [ θ T x i + b ] j ) \hat{y}_{i,j}=\sigma_{softmax}([\pmb\theta^T\pmb{x_i}+\pmb b]_{j}) y^i,j=σsoftmax([θθθTxixixi+bbb]j)
  • [ θ T x i + b ] j [\pmb\theta^T\pmb{x_i}+\pmb b]_{j} [θθθTxixixi+bbb]j为输出层的第 j j j个输出,可解释作分类为类别 j j j的对数概率

1 最大似然估计MLE

1.1 似然函数与对数似然函数

给定一个概率分布 P ( x ) P(x) P(x),假设该分布由某组参数 θ \pmb\theta θθθ确定,那么该概率分布可以写成 P ( x ; θ ) P(x;\pmb\theta) P(x;θθθ)的形式。

  • 将参数 θ \pmb\theta θθθ固定,将 x x x看作变量,则 P ( x ; θ ) P(x;\pmb\theta) P(x;θθθ)称为概率分布,可以看作是在参数 θ \pmb\theta θθθ取到某组具体值的情况下的具体概率分布。
  • x x x固定,将 θ \theta θ看作变量,则 L ( θ ) = P ( x ; θ ) L(\pmb\theta)=P(x;\pmb\theta) L(θθθ)=P(x;θθθ)称为似然函数。似然函数可以看作是在数据 x x x已经被获取的情况下,参数 θ \theta θ在不同取值的情况下 x x x发生的概率。

对于一组独立同分布的数据 x = ( x 1 , x 2 , . . . , x n ) T \pmb{x}=(x_1,x_2,...,x_n)^T xxx=(x1,x2,...,xn)T,其联合分布通常可以写成连乘的形式: L ( θ ) = P ( x ; θ ) = ∏ i = 1 n P ( x i ; θ ) L(\pmb\theta)=P(\pmb{x};\pmb\theta)=\prod_{i=1}^{n}P(x_i;\pmb\theta) L(θθθ)=P(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值