将多标签分类转为句子对任务生成更多数据并提高正确率

卡布达打小怪兽_Cheer

于 2019-12-23 12:29:07 发布

阅读量907

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haoronge9921/article/details/103663345

版权

本文提出将多标签分类问题转化为句子对任务以提高模型准确率，尤其是在样本数量有限的情况下。通过构造正负样本，利用每个标签的代表性句子增加训练数据，模型能更好地利用额外信息。正样本结合原始样本与标签对应句子，负样本则为未打标签的其他类目。这种方法为特征工程提供新视角，尤其适用于数据不足的场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文参考自一个开源项目原文链接

改变mutil-label为句子对任务

文章指出，训练一个模型实现多标签分类任务是比较容易想到的，而且在预测的时候可以一次预测出多个标签，效率也比较高。但是在每个标签的样本数量很少时，模型表现的不太好（这个当然了，不用说多标签分类，就是多类别分类，样本的数量和质量也会直接影响模型的效果）。除了训练样本不够，文章给出的另一个主要原因是模型试图将样本直接映射到多个标签中而没有使用更多额外的信息。而通过将多标签分类任务转换成句子对任务可以很容易利用额外的信息，这些额外的信息包括：特定标签对应的训练样本中的部分输入文本，标签对应的关键词等信息，而且在组成句子对的过程中，可以产生更多数量的训练样本，弥补数据不足的缺点，很符合我们现在的情况。具体的：
首先，选取每个标签下一定数量样本，如随机的选取5个肺癌患者的病例，来代表这个标签，所以，对于任何一个标签，都构造了5个句子来代表这个标签，记为集合{representation_set}。需要注意的是，为了使得样本更有代表性，在随机选取样本过程中，优先选择那些只有一个标签的样本作为该标签的代表样本。

正样本的构造：

需要构造句子对任务：<sentence_1, sentence_2, label(0,1)>
句子对任务中的第一部分的输入为，原始的样本，还是以肺癌为例：肩背部疼痛1年，C

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。