【Paper reading】Fusing label Embedding into BERT An Efficient Improvement for Text Classification

Paper reading: Fusing label Embedding into BERT: An Efficient Improvement for Text Classification

image-20211014094216665

Paper Url,东京工业大学,Findings of ACL-IJCNLP 2021.

2.1 摘要

随着BERT等PTM越来越受到关注,人们做了大量的研究来进一步提升它们的能力,从增强实验程序到改进数学原理。在本文中,我们提出了一种简洁的利用标签嵌入技术方法来提高BERT在文本分类中的性能,同时保持几乎相同的计算代价。在六个文本分类benchmark datasets上的实验结果证明了该方法的有效性。

2.2 模型

image-20211014095231361

L j ∈ [ L 1 , ⋯   , L C ] L_j\in[L_1,\cdots,L_C] Lj[L1,,LC]代表label的文本, D i ∈ [ D 1 , ⋯   , D K ] D_i\in[D_1,\cdots,D_K] Di[D1,,DK]代表label的文本。

To be mention,如果一个 L j L_j Lj中包含多个文本即’sub-words of a label’,比如agnews中的Sci\Tech标签,就输入了Science Technology的文本,则整体输入的label text就为world, sports, business, science technology。comma与否也是有区别的:

image-20211014100953159

然后经过Token Embeddings 表示,将同一label下的sub-words都求平均。然后借鉴了句子匹配任务的思想,将sentence pair input通过segment embedding进行区分。后文实验中采用了该种称之为w/ [SEP],将没有用segment embedding单纯将label text和content text拼在一起的称之为w/o [SEP]

后面同正常文本分类相同,通过整体[CLS] embedding接上tanh线性层进行分类,通过交叉熵损失训练。

最后通过TF-IDF拓展label类别的token种类:在训练集中同一类别下面都用BERT tokenizer分词后计算TF-IDF值选出最高的5个10个20个词扩充label name.

2.3 实验效果

image-20211014100208534

可以明显的看到不对句子pair input作区分w/o [SEP]取得了更好的效果。NSP任务在Bert pretrain阶段是用于预测下一个句子的。当我们将标签序列与输入文档连接时,[SEP]标记将非自然语言序列与自然语言句子组合在一起。这种差异可能导致了前训练和BERT微调之间的偏斜度,导致性能下降。

image-20211014111916161

2.4 优缺点分析
  • 优点:借鉴了MTLE句子匹配任务,将所有的label空间都feed给Encoder,让self-Attention去学content_text和label_text的相似性。
  • 缺点:没考虑构建label和content相似性的similarity_input.
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值