Softmax函数与交叉熵

Softmax函数

背景与定义

在Logistic regression二分类问题中,我们可以使用sigmoid函数将输入 Wx+b 映射到 (0,1) 区间中,从而得到属于某个类别的概率。将这个问题进行泛化,推广到多分类问题中,我们可以使用softmax函数,对输出的值归一化为概率值。

这里假设在进入softmax函数之前,已经有模型输出 C 值,其中C是要预测的类别数,模型可以是全连接网络的输出 a ,其输出个数为C,即输出为 a1,a2,...,aC

所以对每个样本,它属于类别 i 的概率为:

yi=eaiCk=1eak   i1...C

通过上式可以保证 Ci=1yi=1 ,即属于各个类别的概率和为1。

导数

softmax函数进行求导,即求

yiaj

i 项的输出对第j项输入的偏导。
代入 softmax函数表达式,可以得到:
yiaj=eaiCk=1eakaj

用我们高中就知道的求导规则:对于

f(x)=g(x)h(x)

它的导数为
f(x)=g(x)h(x)g(x)h(x)[h(x)]2

所以在我们这个例子中,
g(x)=eaih(x)=k=1Ceak

上面两个式子只是代表直接进行替换,而非真的等式。

eai (即 g(x) )对 aj 进行求导,要分情况讨论:
1. 如果 i=j ,则求导结果为 eai
2. 如果 ij ,则求导结果为 0

再来看 Ck=1eak aj 求导,结果为 eaj

所以,当 i=j 时:

yiaj=eaiCk=1eakaj=eaiΣeaieajΣ2=eaiΣΣeajΣ=yi(1yj)

ij 时:
yiaj=eaiCk=1eakaj=0eaieajΣ2=eaiΣeajΣ=yiyj

其中,为了方便,令 Σ=Ck=1eak

softmax函数的求导,我在两年前微信校招面试基础研究岗位一面的时候,就遇到过,这个属于比较基础的问题。

softmax的计算与数值稳定性

在Python中,softmax函数为:

def softmax(x):
    exp_x = np.exp(x)
    return exp_x / np.sum(exp_x)

传入[1, 2, 3, 4, 5]的向量

>>> softmax([1, 2, 3, 4, 5])
array([ 0.01165623,  0.03168492,  0.08612854,  0.23412166,  0.63640865])

但如果输入值较大时:

>>> softmax([1000, 2000, 3000, 4000, 5000])
array([ nan,  nan,  nan,  nan,  nan])

这是因为在求exp(x)时候溢出了:

import math
math.exp(1000)
# Traceback (most recent call last):
#   File "<stdin>", line 1, in <module>
# OverflowError: math range error

一种简单有效避免该问题的方法就是让exp(x)中的x值不要那么大或那么小,在softmax函数的分式上下分别乘以一个非零常数:

yi=eaiCk=1eak=EeaiCk=1Eeak=eai+log(E)Ck=1eak+log(E)=eai+FCk=1eak+F

这里 log(E) 是个常数,所以可以令它等于 F 。加上常数 F 之后,等式与原来还是相等的,所以我们可以考虑怎么选取常数 F 。我们的想法是让所有的输入在0附近,这样 eai 的值不会太大,所以可以让 F 的值为:
F=max(a1,a2,...,aC)

这样子将所有的输入平移到0附近(当然需要假设所有输入之间的数值上较为接近),同时,除了最大值,其他输入值都被平移成负数, e 为底的指数函数,越小越接近0,这种方式比得到 nan的结果更好。

def softmax(x):
    shift_x = x - np.max(x)
    exp_x = np.exp(shift_x)
    return exp_x / np.sum(exp_x)
>>> softmax([1000, 2000, 3000, 4000, 5000])
array([ 0.,  0.,  0.,  0.,  1.])

当然这种做法也不是最完美的,因为softmax函数不可能产生0值,但这总比出现nan的结果好,并且真实的结果也是非常接近0的。

Loss function

对数似然函数

机器学习里面,对模型的训练都是对Loss function进行优化,在分类问题中,我们一般使用最大似然估计(Maximum likelihood estimation)来构造损失函数。对于输入的 x ,其对应的类标签为 t ,我们的目标是找到这样的 θ 使得 p(t|x) 最大。在二分类的问题中,我们有:

p(t|x)=(y)t(1y)1t

其中, y=f(x) 是模型预测的概率值, t 是样本对应的类标签。

将问题泛化为更一般的情况,多分类问题:

p(t|x)=i=1CP(ti|x)ti=i=1Cytii

由于连乘可能导致最终结果接近0的问题,一般对似然函数取对数的负数,变成最小化对数似然函数。
log p(t|x)=logi=1Cytii=i=iCtilog(yi)

交叉熵

说交叉熵之前先介绍相对熵,相对熵又称为KL散度(Kullback-Leibler Divergence),用来衡量两个分布之间的距离,记为 DKL(p||q)

DKL(p||q)=xXp(x)logp(x)q(x)=xXp(x)log p(x)xXp(x)log q(x)=H(p)xXp(x)log q(x)

这里 H(p) p 的熵。

假设有两个分布 p q ,它们在给定样本集上的相对熵定义为:

CE(p,q)=xXp(x)log q(x)=H(p)+DKL(p||q)

从这里可以看出,交叉熵和相对熵相差了 H(p) ,而当 p 已知的时候, H(p) 是个常数,所以交叉熵和相对熵在这里是等价的,反映了分布 p q 之间的相似程度。关于熵与交叉熵等概念,可以参考该 博客再做了解。

回到我们多分类的问题上,真实的类标签可以看作是分布,对某个样本属于哪个类别可以用One-hot的编码方式,是一个维度为 C 的向量,比如在5个类别的分类中,[0, 1, 0, 0, 0]表示该样本属于第二个类,其概率值为1。我们把真实的类标签分布记为 p ,该分布中, ti=1 i 属于它的真实类别 c 。同时,分类模型经过softmax函数之后,也是一个概率分布,因为 Ci=1yi=1 ,所以我们把模型的输出的分布记为 q ,它也是一个维度为 C 的向量,如[0.1, 0.8, 0.05, 0.05, 0]
对一个样本来说,真实类标签分布与模型预测的类标签分布可以用交叉熵来表示:

lCE=i=1Ctilog(yi)

可以看出,该等式于上面对数似然函数的形式一样!

最终,对所有的样本,我们有以下loss function:

L=k=1ni=1Ctkilog(yki)

其中 tki 是样本 k 属于类别 i 的概率, yki 是模型对样本 k 预测为属于类别 i 的概率。

Loss function求导

对单个样本来说,loss function lCE 对输入 aj 的导数为:

lCEaj=i=1Ctilog(yi)aj=i=1Ctilog(yi)aj=i=1Cti1yiyiaj

上面对 yiaj 求导结果已经算出:

i=j 时: yiaj=yi(1yj)

ij 时: yiaj=yiyj

所以,将求导结果代入上式:

i=1Cti1yiyiaj=tiyiyiaiijCtiyiyiaj=tjyiyi(1yj)ijCtiyi(yiyj)=tj+tjyj+ijCtiyj=tj+i=1Ctiyj=tj+yji=1Cti=yjtj

TensorFlow

方法1:手动实现(不建议使用)

在TensorFlow中,已经有实现好softmax函数,所以我们可以自己构造交叉熵损失函数:

import tensorflow as tf
import input_data

x = tf.placeholder("float", shape=[None, 784])
label = tf.placeholder("float", shape=[None, 10])

w_fc1 = tf.Variable(tf.truncated_normal([784, 1024], stddev=0.1))
b_fc1 = tf.Variable(tf.constant(0.1, shape=[1024]))
h_fc1 = tf.matmul(x, w_fc1) + b_fc1

w_fc2 = tf.Variable(tf.truncated_normal([1024, 10], stddev=0.1))
b_fc2 = tf.Variable(tf.constant(0.1, shape=[10]))
y = tf.nn.softmax(tf.matmul(h_fc1, w_fc2) + b_fc2)

cross_entropy = -tf.reduce_sum(label * tf.log(y))

cross_entropy = -tf.reduce_sum(label * tf.log(y))是交叉熵的实现。先对所有的输出用softmax进行转换为概率值,再套用交叉熵的公式。

方法2:使用tf.nn.softmax_cross_entropy_with_logits(推荐使用)

import tensorflow as tf
import input_data

x = tf.placeholder("float", shape=[None, 784])
label = tf.placeholder("float", shape=[None, 10])

w_fc1 = tf.Variable(tf.truncated_normal([784, 1024], stddev=0.1))
b_fc1 = tf.Variable(tf.constant(0.1, shape=[1024]))
h_fc1 = tf.matmul(x, w_fc1) + b_fc1

w_fc2 = tf.Variable(tf.truncated_normal([1024, 10], stddev=0.1))
b_fc2 = tf.Variable(tf.constant(0.1, shape=[10]))
y = tf.matmul(h_fc1, w_fc2) + b_fc2

cross_entropy = -tf.reduce_sum(tf.nn.softmax_cross_entropy_with_logits(labels=label, logits=y))

TensorFlow已经实现好函数,用来计算labellogitssoftmax交叉熵。注意,该函数的参数logits在函数内会用softmax进行处理,所以传进来时不能是softmax的输出了。

区别

既然我们可以自己实现交叉熵的损失函数,为什么TensorFlow还要再实现tf.nn.softmax_cross_entropy_with_logits函数呢?

这个问题在Stack overflow上已经有Google的人出来回答(传送门),原话是:

If you want to do optimization to minimize the cross entropy, AND you’re softmaxing after your last layer, you should use tf.nn.softmax_cross_entropy_with_logits instead of doing it yourself, because it covers numerically unstable corner cases in the mathematically right way. Otherwise, you’ll end up hacking it by adding little epsilons here and there.

也就是说,方法1自己实现的方法会有在前文说的数值不稳定的问题,需要自己在softmax函数里面加些trick。所以官方推荐如果使用的loss function是最小化交叉熵,并且,最后一层是要经过softmax函数处理,则最好使用tf.nn.softmax_cross_entropy_with_logits函数,因为它会帮你处理数值不稳定的问题。

总结

全文到此就要结束了,可以看到,前面介绍这么多概念,其实只是为了解释在具体实现时候要做什么样的选择。可能会觉得有些小题大做,但对于NN这个黑盒子来说,我们现暂不能从理论上证明其有效性,那在工程实现上,我们不能再将它当作黑盒子来使用。

Reference

  1. http://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/
  2. http://peterroelants.github.io/posts/neural_network_implementation_intermezzo02/
  3. http://cs231n.github.io/linear-classify/
  4. http://cs229.stanford.edu/notes/cs229-notes1.pdf
  5. http://blog.csdn.net/rtygbwwwerr/article/details/50778098
  6. http://stackoverflow.com/questions/34240703/difference-between-tensorflow-tf-nn-softmax-and-tf-nn-softmax-cross-entropy-with

博客原文地址:http://blog.csdn.net/behamcheung/article/details/71911133

  • 70
    点赞
  • 173
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
softmax函数交叉熵是深度学习中经常使用的重要概念。 首先来解释一下softmax函数softmax函数是一种常用的激活函数,它将输入的实数向量转换为一组概率分布。其定义如下: $$ softmax(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}} $$ 其中,$\mathbf{z}$是输入的实数向量,$K$是向量的维度。该函数通过对每个输入值应用指数函数并进行归一化,得到一组概率值。softmax函数常用于多分类问题的输出层,将原始的得分或概率转化为每个类别的概率。 接下来是交叉熵,它是常用的损失函数,用于衡量模型输出的概率分布与真实标签的差异。对于二分类问题,交叉熵的定义如下: $$ H(p, q) = -\sum_{i=1}^{2} p_i \log(q_i) $$ 其中,$p$是真实标签的概率分布,$q$是模型输出的概率分布。交叉熵损失函数希望模型的预测概率分布尽可能接近真实分布,从而提供一个优化目标。 当使用softmax函数作为激活函数并使用交叉熵作为损失函数时,我们可以使用反向梯度传导算法来更新模型参数,以减小损失函数的值。具体来说,我们首先计算损失函数对输出的梯度,然后通过链式法则将梯度传递回网络的每一层,并将参数按梯度方向更新。对于softmax函数,其梯度计算如下: $$ \frac{\partial softmax(\mathbf{z})_i}{\partial z_j} = \frac{\partial}{\partial z_j} \left( \frac{e^{z_i}}{\sum_{k=1}^{K} e^{z_k}} \right) = \begin{cases} softmax(\mathbf{z})_i (1 - softmax(\mathbf{z})_i) & i = j \\ - softmax(\mathbf{z})_i \cdot softmax(\mathbf{z})_j & i \neq j \end{cases} $$ 对于交叉熵损失函数,其对模型输出的梯度计算如下: $$ \frac{\partial H(p, q)}{\partial q_i} = - \frac{p_i}{q_i} $$ 通过将以上两种梯度进行链式法则的组合运算,我们可以计算出损失函数对模型输入的梯度,从而实现反向梯度传导,以调整模型参数使其逐渐趋近于最优值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值