【Paper reading】Fusing label Embedding into BERT An Efficient Improvement for Text Classification

最新推荐文章于 2023-01-26 15:59:52 发布

SUFEHeisenberg

最新推荐文章于 2023-01-26 15:59:52 发布

阅读量587

点赞数

分类专栏： Paper Reading NLP 文章标签： bert 深度学习

本文链接：https://blog.csdn.net/weixin_43557139/article/details/120797760

版权

NLP 同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

Paper Reading

16 篇文章 0 订阅

订阅专栏

Paper reading: Fusing label Embedding into BERT: An Efficient Improvement for Text Classification

Paper Url，东京工业大学，Findings of ACL-IJCNLP 2021.

2.1 摘要

随着BERT等PTM越来越受到关注，人们做了大量的研究来进一步提升它们的能力，从增强实验程序到改进数学原理。在本文中，我们提出了一种简洁的利用标签嵌入技术方法来提高BERT在文本分类中的性能，同时保持几乎相同的计算代价。在六个文本分类benchmark datasets上的实验结果证明了该方法的有效性。

2.2 模型

$L_j\in[L_1,\cdots,L_C]$ 代表label的文本， $D_i\in[D_1,\cdots,D_K]$ 代表label的文本。

To be mention，如果一个 $L_j$ 中包含多个文本即’sub-words of a label’，比如agnews中的Sci\Tech标签，就输入了Science Technology的文本，则整体输入的label text就为world, sports, business, science technology。comma与否也是有区别的：

然后经过Token Embeddings 表示，将同一label下的sub-words都求平均。然后借鉴了句子匹配任务的思想，将sentence pair input通过segment embedding进行区分。后文实验中采用了该种称之为w/ [SEP]，将没有用segment embedding单纯将label text和content text拼在一起的称之为w/o [SEP]。

后面同正常文本分类相同，通过整体[CLS] embedding接上tanh线性层进行分类，通过交叉熵损失训练。

最后通过TF-IDF拓展label类别的token种类：在训练集中同一类别下面都用BERT tokenizer分词后计算TF-IDF值选出最高的5个10个20个词扩充label name.

2.3 实验效果

可以明显的看到不对句子pair input作区分w/o [SEP]取得了更好的效果。NSP任务在Bert pretrain阶段是用于预测下一个句子的。当我们将标签序列与输入文档连接时，[SEP]标记将非自然语言序列与自然语言句子组合在一起。这种差异可能导致了前训练和BERT微调之间的偏斜度，导致性能下降。

2.4 优缺点分析

优点：借鉴了MTLE句子匹配任务，将所有的label空间都feed给Encoder，让self-Attention去学content_text和label_text的相似性。
缺点：没考虑构建label和content相似性的similarity_input.

SUFEHeisenberg

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【Paper reading】Fusing label Embedding into BERT An Efficient Improvement for Text Classification

Paper reading: Fusing label Embedding into BERT: An Efficient Improvement for Text ClassificationPaper Url，东京工业大学，Findings of ACL-IJCNLP 2021.2.1 摘要随着BERT等PTM越来越受到关注，人们做了大量的研究来进一步提升它们的能力，从增强实验程序到改进数学原理。在本文中，我们提出了一种简洁的利用标签嵌入技术方法来提高BERT在文本分类中的性能，同时保持几乎相同
复制链接

扫一扫