tensorflow笔记之二十八——带掩码的损失函数

最新推荐文章于 2023-09-01 15:07:57 发布

starxhong

最新推荐文章于 2023-09-01 15:07:57 发布

阅读量1.2k

点赞数 2

分类专栏： tensorflow 文章标签： tensorflow mask loss

本文链接：https://blog.csdn.net/hongxingabc/article/details/120968281

版权

tensorflow 专栏收录该内容

22 篇文章 4 订阅

订阅专栏

一个应用场景

在多标签问题中，有时候需要一些特殊的处理，比如一些样本只对部分class进行更新，而另一些样本对另外一些class进行更新。

举个例子，我们预测一个用户喜欢什么类型的电影，假如我们知道用户对哪些电影有过观看行为，这是正样本，负样本一般来说可以随机采样构造，构造也有两种方式，一个是固定用户随机采样电影，一个是固定电影随机采样用户，两种方式其实是等价的，不过考虑到随机采样用户可以覆盖到完全没有观影记录的用户，我们倾向于用后者（看电影的用户和不看电影的用户可能本身就有很大的不同了，如果train domain局限在看电影的用户，infer的时候如果遇到一个不看电影的用户可能就搞不定了）。一个用户可以喜欢多款电影，也可以一个都不喜欢，所以这个应该是一个多标签问题。

假如有5类电影，用户A观看过第2类，那么这个用户的label可以表示为[0,1,0,0,0]，对这条正样本构造一个负样本的话，用户随机采样为用户B，负样本label应该是什么？可以是 [0,0,0,0,0]还是[1,0,1,1,1]吗？都不行。因为我们只知道用户A看过第2类，但并不能说用户A对其他类型就不喜欢，同理随机负采样的用户B，我们可以认为对第2类给标记为0，但其他类是0还是1其实也不好说。

常用的方式就是对于这条样本，只更新第2类相关的参数，其余的类别不更新。实现这个目的的方式就是在计算loss的时候进行掩码，比如上面例子中这条样本的掩码就应该是[0,1,0,0,0]，掩码中1对应的位置计算loss，0对应的位置不算。

代码示例

下面以sigmoid（二分类/多标签）交叉熵损失为例，看两种loss掩码的方式，一种是tensorflow自带weights的损失函数来实现掩码，一种是我们自己写的掩码损失函数，二者完全等价。注意，tf.nn.sigmoid_cross_entropy_with_logits的结果loss维度跟输入的label和pred是一样的，而我们通常在日志里打印出来的loss=xxxx其实是经过聚合（reduction）之后的，聚合的方式有很多种，这里我们用的reduction是SUM_OVER_NONZERO_WEIGHTS，也就是对非0的loss元素求平均。

import tensorflow as tf
import numpy as np

label = tf.constant([[1.0,1.0,0.0,0.0,0.0],[0.0,1.0,1.0,1.0,0.0],[0.0,0.0,0.0,0.0,1.0],[1.0,1.0,1.0,1.0,1.0]])
pred = tf.constant([[0.2,0.2,0.2,0,0.8],[0,0.5,0.5,0.2,0],[0,0.5,0.1,0.0,0.9],[0.9,0.9,0.7,0.1,0.0]])
mask = tf.constant([[1,0,0,0,0],[0,0,1,1,0],[0,0,1,0,1],[0,1,1,1,1]])

def loss1(a, b, weights):
	# tensorflow自带，内部也是tf.nn.sigmoid_cross_entropy_with_logits，实现了带weights的loss reduction。
    loss = tf.compat.v1.losses.sigmoid_cross_entropy(
                    multi_class_labels=a,
                    logits=b,
                    weights=weights,
                    reduction=tf.compat.v1.losses.Reduction.SUM_OVER_NONZERO_WEIGHTS)
    return loss

def loss2(a, b, weights):
    # 计算loss，维度跟labels一致
    cross_entropy = tf.nn.sigmoid_cross_entropy_with_logits(
                    labels=a, logits=b)
    # mask中1对应的位置矩阵
    mask_idx = tf.where(weights > 0)
    # 根据mask进行聚合，聚合方式是对非0的loss元素求平均，跟SUM_OVER_NONZERO_WEIGHTS一样
    loss = tf.cond(tf.equal(tf.size(mask_idx), 0),
                   lambda: tf.constant(0.0),
                   lambda: tf.reduce_mean(tf.gather_nd(cross_entropy, mask_idx)))
    return loss

with tf.Session() as sess:
    result1 = sess.run(loss1(label,pred,mask))
    print(result1)
    result2 = sess.run(loss2(label,pred,mask))
    print(result2)

输出结果可以看到二者是一样的：

0.53753215
0.5375321

starxhong

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
tensorflow笔记之二十八——带掩码的损失函数

一个应用场景在多标签问题中，有时候需要一些特殊的处理，比如一些样本只对部分class进行更新，而另一些样本对另外一些class进行更新。举个例子，我们预测一个用户喜欢什么类型的电影，假如我们知道用户对哪些电影有过观看行为，这是正样本，负样本一般来说可以随机采样构造，构造也有两种方式，一个是固定用户随机采样电影，一个是固定电影随机采样用户，两种方式其实是等价的，不过考虑到随机采样用户可以覆盖到完全没有观影记录的用户，我们倾向于用后者（看电影的用户和不看电影的用户可能本身就有很大的不同了，如果train d
复制链接

扫一扫

专栏目录