文本分类中标签的应用trick总结

        最近看到一篇博文是讲AAAI2021的论文:Label Confusion Learning to Enhance Text Classification Models

        利用标签之间的混淆关系,提升文本分类效果。文中讲到文本分类的主流方法是使用复杂的模型进行文本表示,而使用简单的分类层预测类别分布。更多的研究工作集中于第一步,这其中会有一些问题:

                1. one-hot 的 label 表示假设标签之间是独立的,假设太强,忽略了标签之间的相互重叠关系;

                2. one-hot 的 label 表示方法不仅丢失了标签包含的大量语义信息,同时会导致模型过于自信,在处理标签有噪声或者标签混淆度比较高的数据时出现问题。因此,需要对标签所包含的信息进行充分的处理和利用。

        文章中提到的方法是:使用一个标签编码器,生成标签向量。再通过一个相似性模块计算标签和文本之间的相关度。

        使用标签生成标签向量这一步让我想到了ACL2018的一篇论文:Joint Embedding of Words and Labels for Text Classification,在之前的博文中也有简单提到,是将标签与单词在同一个空间中进行表示,可以得到单词在标签上的attention值。

        代码实现中看到使用了label-smooth,将one-hot形式的标签编码进行软化,使label以一部分概率服从均匀分布,防止label过于自信带来的过拟合。

        第三篇论文来自NAACL2019:An Effective Label Noise Model for DNN Text Classification。针对的是标注数据中存在的标注错误情况,在目标模型顶层加入噪声模型层缓解标签噪声影响。这篇博文是之前写的该论文的中文翻译。

        这几天在浏览arxiv论文的时候又发现了一篇论文:Short Text Classification via Knowledge powered Attention with Similarity Matrix based CNN。论文目前没有全文可以下载,但是找到了论文的博文解读。从文章的题目可以看出针对的是短文本任务,用到的技术是知识+attention+cnn。短文本中的难点在于信息量少,所以加入了知识图谱信息和标签信息。

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值