将多标签分类转为句子对任务生成更多数据并提高正确率

本文提出将多标签分类问题转化为句子对任务以提高模型准确率,尤其是在样本数量有限的情况下。通过构造正负样本,利用每个标签的代表性句子增加训练数据,模型能更好地利用额外信息。正样本结合原始样本与标签对应句子,负样本则为未打标签的其他类目。这种方法为特征工程提供新视角,尤其适用于数据不足的场景。
摘要由CSDN通过智能技术生成

本文参考自一个开源项目原文链接

改变mutil-label为句子对任务

文章指出,训练一个模型实现多标签分类任务是比较容易想到的,而且在预测的时候可以一次预测出多个标签,效率也比较高。但是在每个标签的样本数量很少时,模型表现的不太好(这个当然了,不用说多标签分类,就是多类别分类,样本的数量和质量也会直接影响模型的效果)。除了训练样本不够,文章给出的另一个主要原因是模型试图将样本直接映射到多个标签中而没有使用更多额外的信息。而通过将多标签分类任务转换成句子对任务可以很容易利用额外的信息,这些额外的信息包括:特定标签对应的训练样本中的部分输入文本,标签对应的关键词等信息,而且在组成句子对的过程中,可以产生更多数量的训练样本,弥补数据不足的缺点,很符合我们现在的情况。具体的:
首先,选取每个标签下一定数量样本,如随机的选取5个肺癌患者的病例,来代表这个标签,所以,对于任何一个标签,都构造了5个句子来代表这个标签,记为集合{representation_set}。需要注意的是,为了使得样本更有代表性,在随机选取样本过程中,优先选择那些只有一个标签的样本作为该标签的代表样本。

正样本的构造:

需要构造句子对任务:<sentence_1, sentence_2, label(0,1)>
句子对任务中的第一部分的输入为,原始的样本,还是以肺癌为例:肩背部疼痛1年,C

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值