损失函数
损失函数是用来衡量预测值与真实值的差距的。理论上能度量这种差距的函数都可以作为损失函数,但实际上不同的损失函数对不同问题有不同的表现。下面我将介绍一下主流的损失函数,并基于
tensorflow
实现。
1. binary_crossentropy
顾名思义,binary_crossentropy
是针对二分类问题的一个损失函数。在数学上,其表达式如下:
l
o
s
s
=
−
∑
i
=
0
n
[
y
i
l
o
g
(
y
^
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
y
^
i
)
]
loss = - \sum_{i=0}^{n}[y_i log(\hat y_i) + (1-y_i)log(1-\hat y_i)]
loss=−i=0∑n[yilog(y^i)+(1−yi)log(1−y^i)]
其中,
n
n
n一般为batchsize
,
y
i
y_i
yi是数据的标签值,
y
^
\hat y
y^是模型的输出值。此式是信息论中的交叉熵在损失函数中的应用,有兴趣的小伙伴可以看看信息论相关资料加深理解。
有必要说明,这里二分类最后的网络层只有一个神经元(激活函数
sigmoid
),输出数值范围为 [ 0 , 1 ] [0,1] [0,1],表示的是模型人为该数据是A类的概率 p p p。而B类的概率就为 1 − p 1-p 1−p。这也就解释了上式原由。
实现代码如下:
import tensorflow as tf
def binary_crossentropy(y_true,y_predict,epsilon=1e-7):
# epsilon 是为了防止log 0的出现
loss = - tf.reduce_sum(y_true * tf.math.log(y_predict+epsilon) + (1-y_true) * tf.math.log(1-y_predict+epsilon))
return loss
2. category_crossentropy
与二分类类似,只不过这里是多分类。具体的数学表达式如下:
l
o
s
s
=
−
∑
i
=
0
n
∑
j
=
0
C
y
i
j
l
o
g
(
y
^
i
j
)
loss = - \sum_{i=0}^{n} \sum_{j=0}^C y_{ij}log(\hat y_{ij})
loss=−i=0∑nj=0∑Cyijlog(y^ij)
其中,C是分类数。其他参数与binary_crossentropy
同。
在多分类中,最后一层网络一般为 k k k(类别数)个神经元(激活函数为
softmax
)。输出表示模型认为该数据在不同类别上的概率分布,此时 y t r u e y_{true} ytrue一般需要转换为ont_hot
格式。
代码实现如下:
def category_crossentropy(y_true,y_predict,epsilon=1e-7):
# loss = -tf.reduce_sum(tf.reduce_sum(y_true * tf.math.log(y_predict+epsilon),axis = -1))
loss = -tf.reduce_sum(y_true * tf.math.log(y_predict+epsilon))
return loss
3. mean_square_error
均方误差多用于回归问题的损失函数,其数学表达式如下:
l
o
s
s
=
1
n
∑
i
=
0
n
(
y
^
i
−
y
i
)
2
loss = \frac{1}{n}\sum_{i=0}^{n} (\hat y_i - y_i)^2
loss=n1i=0∑n(y^i−yi)2
def mean_square_error(y_true,y_predict):
loss = tf.reduce_mean((y_predict - y_true)**2)
return loss
4. 自定义函数
自定义损失函数:
- l o s s loss loss 能正确衡量预测值与目标值之间的距离。
- l o s s loss loss是一个标量,且 l o s s ≥ 0 loss \ge 0 loss≥0。
- l o s s loss loss尽可能的与问题匹配。
对于损失函数的理解,应该重点关注损失函数的效用,不要拘泥于形式,要结合具体问题具体分析,对问题的深入理解才能更好的设计出有效的损失函数。
联系邮箱:antarm@outlook.com