tensorflow笔记（三）——损失函数

最新推荐文章于 2022-07-26 19:16:21 发布

starxhong

最新推荐文章于 2022-07-26 19:16:21 发布

阅读量1.3k

点赞数

分类专栏： tensorflow 文章标签： tensorflow python 深度学习 loss

本文链接：https://blog.csdn.net/hongxingabc/article/details/119031646

版权

tensorflow 专栏收录该内容

22 篇文章 4 订阅

订阅专栏

一、概述

机器学习主要面对两类问题：回归和分类。不过一个问题属于分类还是回归的界定却并不清晰。比如点击率预估输入样本的Label是0-曝光和1-点击，输出的是用户点击的概率，是一个连续值，你说点击率是回归问题还是分类问题？从目标来看输出一个率值而非类别应该算回归，但从输入来看是标签离散的，应该算是分类。
本质上这两类问题是一体两面的，分类模型可将回归模型的输出离散化，回归模型也可将分类模型的输出连续化，主要看任务目标是什么。分类和回归最大的不同可能在于对于损失函数的选择上。主要区别在于：
损失函数的一般表示为 L(y,f(x))，用以衡量真实值 y和预测值 f(x)之间不一致的程度，一般越小越好。为了便于不同损失函数的比较，常将其表示为单变量的函数，在回归问题中这个变量为 [y-f(x)] ：残差表示，在分类问题中则为 yf(x) ： 趋势一致。

二、处理回归问题

（1） tf.losses.mean_squared_error：均方根误差（MSE） —— 回归问题中最常用的损失函数

优点: 便于梯度下降，误差大时下降快，误差小时下降慢，有利于函数收敛。
缺点: 受明显偏离正常范围的离群样本的影响较大

# Tensorflow中集成的函数
mse = tf.losses.mean_squared_error(y_true, y_pred)
# 利用Tensorflow基础函数手工实现
mse = tf.reduce_mean(tf.square(y_true -  y_pred))

（2）tf.losses.absolute_difference：平均绝对误差（MAE） —— 想格外增强对离群样本的健壮性时使用

优点：克服了 MSE 的缺点，受偏离正常范围的离群样本影响较小。
缺点：收敛速度比 MSE 慢，因为当误差大或小时其都保持同等速度下降，而且在某一点处还不可导，计算机求导比较困难。

maes = tf.losses.absolute_difference(y_true, y_pred)
maes_loss = tf.reduce_sum(maes)

（3）tf.losses.huber_loss：Huber loss —— 集合 MSE 和 MAE 的优点，但是需要手动调超参数

核心思想是，检测真实值（y_true）和预测值（y_pred）之差的绝对值在超参数 δ 内时，使用 MSE 来计算 loss, 在 δ 外时使用类 MAE 计算 loss。sklearn 关于 huber 回归的文档中建议将 δ=1.35 以达到 95% 的有效性。

hubers = tf.losses.huber_loss(y_true, y_pred)
hubers_loss = tf.reduce_sum(hubers)

三、处理分类问题

（1）tf.nn.sigmoid_cross_entropy_with_logits：先 sigmoid 再求交叉熵 —— 二分类问题首选

使用时，一定不要将预测值（y_pred）进行 sigmoid 处理，否则会影响训练的准确性，因为函数内部已经包含了 sigmoid 激活（若已先行 sigmoid 处理过了，则 tensorflow 提供了另外的函数）。真实值（y_true）则要求是 One-hot 编码形式。
函数求得的结果是一组向量，是每个维度单独的交叉熵，loss的形状和labels是相同的，也是[batch_size, num_classes]，如果想求总的交叉熵，使用 tf.reduce_sum() 相加即可；如果想求 loss ，则使用 tf.reduce_mean() 进行平均。

# Tensorflow中集成的函数
sigmoids = tf.nn.sigmoid_cross_entropy_with_logits(labels=y, logits=y_pred)
sigmoids_loss = tf.reduce_mean(sigmoids)

# 利用Tensorflow基础函数手工实现
y_pred_si = 1.0/(1+tf.exp(-y_pred))
sigmoids = -y_true*tf.log(y_pred_si) - (1-y_true)*tf.log(1-y_pred_si)
sigmoids_loss = tf.reduce_mean(sigmoids)

(2) tf.losses.log_loss：交叉熵 —— 效果同上，预测值格式略有不同

预测值（y_pred）计算完成后，若已先行进行了 sigmoid 处理，则使用此函数求 loss ，若还没经过 sigmoid 处理，可直接使用 sigmoid_cross_entropy_with_logits。

# Tensorflow中集成的函数
logs = tf.losses.log_loss(labels=y, logits=y_pred)
logs_loss = tf.reduce_mean(logs)

# 利用Tensorflow基础函数手工实现
logs = -y_true*tf.log(y_pred) - (1-y_true)*tf.log(1-y_pred)
logs_loss = tf.reduce_mean(logs)

(3) tf.nn.softmax_cross_entropy_with_logits_v2：先 softmax 再求交叉熵 —— 多分类问题首选

使用时，预测值（y_pred）同样是没有经过 softmax 处理过的值，真实值（y_true）要求是 One-hot 编码形式。

softmaxs = tf.nn.softmax_cross_entropy_with_logits_v2(labels=y, logits=y_pred)
softmaxs_loss = tf.reduce_mean(softmaxs)

tf v1.8之前为 tf.nn.softmax_cross_entropy_with_logits()，新函数修补了旧函数的不足，两者在使用方法上是一样的。

(4) tf.nn.sparse_softmax_cross_entropy_with_logits：效果同上，真实值格式略有不同

若真实值（y_true）不是 One-hot 格式的，可以使用此函数，可省略一步转换

softmaxs_sparse = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=y_pred)
softmaxs_sparse_loss = tf.reduce_mean(softmaxs_sparse)

(5) tf.nn.weighted_cross_entropy_with_logits：带权重的 sigmoid 交叉熵 —— 适用于正、负样本数量差距过大时

增加了一个权重的系数，用来平衡正、负样本差距，可在一定程度上解决差距过大时训练结果严重偏向大样本的情况。

# Tensorflow中集成的函数
sigmoids_weighted = tf.nn.weighted_cross_entropy_with_logits(targets=y, logits=y_pred, pos_weight)
sigmoids_weighted_loss = tf.reduce_mean(sigmoids_weighted)

# 利用Tensorflow基础函数手工实现
sigmoids_weighted = -y_true*tf.log(y_pred) * weight - (1-y_true)*tf.log(1-y_pred)
sigmoids_loss = tf.reduce_mean(sigmoids)

(6) tf.losses.hinge_loss：铰链损失函数 —— SVM 中使用

hinge_loss 是为了求出不同类别间的“最大间隔”，此特性尤其适用于 SVM（支持向量机）。使用 SVM 做分类，与 LR（Logistic Regression 对数几率回归）相比，其优点是小样本量便有不错效果、对噪点包容性强，缺点是样本量大时效率低、有时很难找到合适的区分方法。

hings = tf.losses.hinge_loss(labels=y, logits=y_pred, weights)
hings_loss = tf.reduce_mean(hings)

四、自定义损失函数

标准的损失函数并不合适所有场景，有些实际的背景需要采用自己构造的损失函数，Tensorflow 也提供了丰富的基础函数供自行构建。
例如下面的例子：当预测值（y_pred）比真实值（y_true）大时，使用 (y_pred-y_true)*loss_more 作为 loss，反之，使用 (y_true-y_pred)*loss_less

loss = tf.reduce_sum(tf.where(tf.greater(y_pred, y_true), (y_pred-y_true)*loss_more,(y_true-y_pred)*loss_less))
tf.greater(x, y)：判断 x 是否大于 y，当维度不一致时广播后比较
tf.where(condition, x, y)：当 condition 为 true 时返回 x，否则返回 y
tf.reduce_mean()：沿维度求平均
tf.reduce_sum()：沿维度相加
tf.reduce_prod()：沿维度相乘
tf.reduce_min()：沿维度找最小
tf.reduce_max()：沿维度找最大
使用 Tensorflow 提供的方法可自行构造想要的损失函数。

五、参考资料

如何理解深度学习源码里经常出现的logits
知乎-分类与回归区别是什么？
常见回归和分类损失函数比较
 Tensorflow 中的损失函数 —— loss 专题汇总
 样本不同损失权重

starxhong

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
tensorflow笔记（三）——损失函数

一、概述机器学习主要面对两类问题：回归和分类。不过一个问题属于分类还是回归的界定却并不清晰。比如点击率预估输入样本的Label是0-曝光和1-点击，输出的是用户点击的概率，是一个连续值，你说点击率是回归问题还是分类问题？从目标来看输出一个率值而非类别应该算回归，但从输入来看是标签离散的，应该算是分类。本质上这两类问题是一体两面的，分类模型可将回归模型的输出离散化，回归模型也可将分类模型的输出连续化，主要看任务目标是什么。分类和回归最大的不同可能在于对于损失函数的选择上。主要区别在于：损失函数的一般表示
复制链接

扫一扫