文章目录
0 总结
先放出结论方便查看,细节的推导可以阅读后续章节。
0.1 MLE与交叉熵
MLE准则导出的损失函数与交叉熵损失函数等价,如下:
J ( θ ) = − E x , y ∼ P d a t a [ l o g P m o d e l ( y ∣ x ; θ ) ] J(\pmb\theta)=-\mathbb{E}_{\pmb x,\pmb y\sim P_{data}}[logP_{model}(\pmb y|\pmb x;\pmb\theta)] J(θθθ)=−Exxx,yyy∼Pdata[logPmodel(yyy∣xxx;θθθ)]
监督学习是给定输入 x \pmb x xxx(样本)和输出 y \pmb y yyy(标签)来对模型进行训练的一个过程。
- 从最大似然估计准则的角度看,这个过程可以看成是对条件概率 P ( Y ∣ X ; θ ) P(Y|X;\pmb\theta) P(Y∣X;θθθ)的一个最大似然估计过程。
- 从相对熵和交叉熵的角度看,这个过程可以看成调整 Q ( X ) Q(X) Q(X)使其逼近 P ( X ) P(X) P(X)的过程,而 H ( P , Q ) H(P,Q) H(P,Q)的最小值就是 H ( P ) H(P) H(P),那么我们对交叉熵 H ( P , Q ) H(P,Q) H(P,Q)进行最小化而获得的 Q ( X ) Q(X) Q(X)则应该能够很好逼近 P ( X ) P(X) P(X)。
详见第4节
0.2 交叉熵损失函数具体形式
下列符号中: N N N为样本数, M M M为类别数
1.线性回归问题
J ( θ ) = − E x , y ∼ P d a t a [ l o g P m o d e l ( y ∣ x ; θ ) ] = 1 N ∣ ∣ y − y ^ ∣ ∣ 2 2 \begin{aligned} J(\pmb\theta)&=-\mathbb{E}_{\pmb x,\pmb y \sim P_{data}}[logP_{model}(\pmb y| \pmb x;\pmb\theta)]\\ &=\frac{1}{N}||\pmb y -\pmb{\hat y}||^2_2 \end{aligned} J(θθθ)=−Exxx,yyy∼Pdata[logPmodel(yyy∣xxx;θθθ)]=N1∣∣yyy−y^y^y^∣∣22
2.logistic回归(二分类问题)
J ( θ ) = 1 N ∑ i = 1 N − y i l o g y i ^ − ( 1 − y i ) l o g ( 1 − y i ^ ) J(\pmb\theta)=\frac{1}{N}\sum_{i=1}^N-y_ilog\hat{y_i}-(1-y_i)log(1-\hat{y_i}) J(θθθ)=N1i=1∑N−yilogyi^−(1−yi)log(1−yi^)其中:
- y i y_i yi为0或1,若类别为A则为1,类别为B则为0
- y i ^ \hat{y_i} yi^为模型输出的将样本分类为A的概率,则 ( 1 − y i ^ ) (1-\hat{y_i}) (1−yi^)为分类成B的概率, y i ^ = σ s i g m o i d ( θ T x i + b ) \hat{y_i}=\sigma_{sigmoid}(\pmb\theta^T\pmb{x_i}+b) yi^=σsigmoid(θθθTxixixi+b)
3.多分类问题
J ( θ ) = − 1 N ∑ i = 1 N ∑ j = 1 M y i , j l o g y ^ i , j J(\pmb\theta)=-\frac{1}{N}\sum_{i=1}^N\sum_{j=1}^{M}y_{i,j}log\hat{y}_{i,j} J(θθθ)=−N1i=1∑Nj=1∑Myi,jlogy^i,j其中:
- y i , j y_{i,j} yi,j为0或1,若类别 j j j符合样本 i i i则取值为1,不符合则为0
- y ^ i , j \hat{y}_{i,j} y^i,j为模型输出的将样本 i i i分类为类别 j j j的概率, y ^ i , j = σ s o f t m a x ( [ θ T x i + b ] j ) \hat{y}_{i,j}=\sigma_{softmax}([\pmb\theta^T\pmb{x_i}+\pmb b]_{j}) y^i,j=σsoftmax([θθθTxixixi+bbb]j)
- [ θ T x i + b ] j [\pmb\theta^T\pmb{x_i}+\pmb b]_{j} [θθθTxixixi+bbb]j为输出层的第 j j j个输出,可解释作分类为类别 j j j的对数概率
1 最大似然估计MLE
1.1 似然函数与对数似然函数
给定一个概率分布 P ( x ) P(x) P(x),假设该分布由某组参数 θ \pmb\theta θθθ确定,那么该概率分布可以写成 P ( x ; θ ) P(x;\pmb\theta) P(x;θθθ)的形式。
- 将参数 θ \pmb\theta θθθ固定,将 x x x看作变量,则 P ( x ; θ ) P(x;\pmb\theta) P(x;θθθ)称为概率分布,可以看作是在参数 θ \pmb\theta θθθ取到某组具体值的情况下的具体概率分布。
- 将 x x x固定,将 θ \theta θ看作变量,则 L ( θ ) = P ( x ; θ ) L(\pmb\theta)=P(x;\pmb\theta) L(θθθ)=P(x;θθθ)称为似然函数。似然函数可以看作是在数据 x x x已经被获取的情况下,参数 θ \theta θ在不同取值的情况下 x x x发生的概率。
对于一组独立同分布的数据 x = ( x 1 , x 2 , . . . , x n ) T \pmb{x}=(x_1,x_2,...,x_n)^T xxx=(x1,x2,...,xn)T,其联合分布通常可以写成连乘的形式: L ( θ ) = P ( x ; θ ) = ∏ i = 1 n P ( x i ; θ ) L(\pmb\theta)=P(\pmb{x};\pmb\theta)=\prod_{i=1}^{n}P(x_i;\pmb\theta) L(θθθ)=P(