1. tf.nn.softmax_cross_entropy_with_logits
该函数计算logits和labels之间的softmax交叉熵(softmax cross entropy, SCE),softmax的含义是将传入的logits进行softmax映射再计算交叉熵,函数定义为:
tf.nn.softmax_cross_entropy_with_logits(
_sentinel=None,
labels=None,
logits=None,
dim=-1,
name=None
)
我们只解释labels和logits两个参数的含义:
1)labels: 真实数据的分类标签,是一个正数的任意向量比如:
[
1
,
2
,
3
]
[1,2,3]
[1,2,3]
2)logits: 可以是维度与labels相同的任意向量,其中元素为实数(可正可负)
1)对logits进行softmax运算
设
l
o
g
i
t
s
=
[
y
^
1
,
.
.
.
,
y
^
n
]
logits=[\widehat y_1,...,\widehat y_n]
logits=[y
1,...,y
n], logits通过softmax运算得到的结果为
S
=
[
s
1
,
.
.
.
,
s
n
]
S=[s_1,...,s_n]
S=[s1,...,sn]:
s
i
=
e
x
i
∑
i
=
1
n
e
x
i
s_i=\frac{e^{x_i}}{\sum_{i=1}^n e^{x_i}}
si=∑i=1nexiexi
假定
l
o
g
i
t
s
=
[
2.0
,
−
1.0
,
3.0
]
logits=[2.0, -1.0, 3.0]
logits=[2.0,−1.0,3.0] 经过softmax后得到
S
=
[
0.265
,
0.013
,
0.721
]
S=[0.265, 0.013, 0.721]
S=[0.265,0.013,0.721]
2)计算labels和logits之间的softmax交叉熵
设
l
a
b
e
l
s
=
[
y
1
,
.
.
.
,
y
n
]
,
l
o
g
i
t
s
=
[
y
^
1
,
.
.
.
,
y
^
n
]
labels=[y_1,...,y_n], logits=[\widehat{y}_1,...,\widehat{y}_n]
labels=[y1,...,yn],logits=[y
1,...,y
n], logits通过softmax运算后结果为
S
=
[
s
1
,
.
.
.
,
s
n
]
S=[s_1,...,s_n]
S=[s1,...,sn],则labels和logits之间的softmax交叉熵为:
S
C
E
=
−
∑
i
=
1
n
y
i
l
o
g
s
i
SCE=-\sum_{i=1}^n y_i log s_i
SCE=−i=1∑nyilogsi
3) 程序实现
labels = [0., 0. ,1.]
logits = [2., -1., 3.]
cross_entropy = tf.nn.softmax_cross_entropy_with_logits(labels=labels, logits=logits)
print(cross_entropy) # 输出结果为:tf.Tensor(0.32656264, shape=(), dtype=float32)
当然labels,logits也可以是矩阵形式
labels = [[0.0,0.0,1.0],[1.0,0.0,0.0]]
logits = [[2.0, -1.0, 3.0], [1.0, 0.0, -0.5]]
cross_entropy = tf.nn.softmax_cross_entropy_with_logits(labels=labels, logits=logits)
print(cross_entropy) # 输出结果为:tf.Tensor([0.32656264 0.4643688 ], shape=(2,), dtype=float32)
2. tf.nn.sparse_softmax_cross_entropy_with_logits
该函数传入的labels参数必须是分类的标签类别,但它会自动转换为one-hot码来计算,而softmax_cross_entropy_with_logits中的labels可以是任意与logits等维度的向量。
labels = [2, 0] # 其one-hot是[[0, 0, 1],[1, 0, 0]]
logits = [[2.0, -1.0, 3.0], [1.0, 0.0, -0.5]]
cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=labels, logits=logits)
print(cross_entropy) # 输出结果为:tf.Tensor([0.32656264 0.4643688 ], shape=(2,), dtype=float32)
3. tf.nn.sigmoid_cross_entropy_with_logits
设置
l
a
b
l
e
s
=
[
y
1
,
.
.
.
,
y
n
]
,
l
o
g
i
t
s
=
[
y
^
1
,
.
.
.
,
y
^
n
]
lables=[y_1,...,y_n], logits=[\widehat{y}_1,...,\widehat{y}_n]
lables=[y1,...,yn],logits=[y
1,...,y
n],logits通过sigmoid运算后结果为
S
=
[
s
1
,
.
.
.
,
s
n
]
S=[s_1,...,s_n]
S=[s1,...,sn]:
s
i
=
1
1
+
e
y
^
i
s_i=\frac{1}{1+e^{\widehat y_i}}
si=1+ey
i1
然后依次计算labels和S中对应每个元素的sigmoid cross entropy (SigCE)):
S
i
g
C
E
i
=
−
y
i
l
o
g
s
i
−
(
1
−
y
i
)
l
o
g
(
1
−
s
i
)
SigCE_i = -y_i log s_i - (1-y_i) log (1-s_i)
SigCEi=−yilogsi−(1−yi)log(1−si)
下面通过tf.nn.sigmoid_cross_entropy_with_logits来计算 l a b l e s = [ 0 , 0 , 1 ] , l o g i t s = [ 2.0 , − 1.0 , 3.0 ] lables=[0,0,1], logits=[2.0, -1.0, 3.0] lables=[0,0,1],logits=[2.0,−1.0,3.0]之间的sigmoid交叉熵
labels = [0.0,0.0,1.0]
logits = [2.0, -1.0, 3.0]
cross_entropy = tf.nn.sigmoid_cross_entropy_with_logits(labels=labels, logits=logits)
print(cross_entropy) # 输出结果为:tf.Tensor([2.126928 0.31326172 0.04858735], shape=(3,), dtype=float32)