阅读笔记 Incremental Few-shot Text Classification with Multi-round New Classes: Formulation, Dataset and System
前言
在训练一个文本分类模型对时候,通常是在一个预先处理好的固定类别的数据集中, 但是在实际应用中,文本的类别是不断变化的,可能会出现一批新的类别和对应的样本, 这就要求模型能够通过只通过一些新的 样本集,来准确识别新加入的类, 我们定义这种任务为:
incremental few-shot text classification
笔者注:
应该是增量学习方向下的一个小分类, 感兴趣的可以看看增量学习,也是近期的学术热点,主要是在CV方面用的多, NLP相关研究较少
系统依次处理多轮新增数据, 每一轮的数据包括一些新类别,和对应的数据
问题范式
模型介绍
模型叫做 ENTAILMENT, 其主要思想就是把文本分类任务转换成文本蕴含任务, 其中输入的文本表示一个promise, 对应的类别名表示hypothesis, 任务就转换成 这个假设是否在promise的基础上成立。
这样做的优点有
- 可以充分利用大规模的文本蕴含语料数据集合
- 可以利用文本语义以及标签语义(一般的文本分类只是把标签当中one hot 没有用其语义
蕴含对构造
我们需要构造正样本和负样本来对模型进行训练, 每个样本的形式如下:(文本, label)
其中
- 正样本 是文本和其对应的 label
- 负样本 则是文本和一个错误的label
特征提取
其中x 代表 文本, y代表label
将文本和label按照BERT的句子相似度任务来做,这里使用的是RoBERTa, 然后 文本看作句子1, label 看作句子2
输入形式为
([CLS], X1, X2, …, XT1 , [SEP], Y1, Y2, …, YT2 , [SEP]
输入BERT后
返回的cls 进行solfmax 二分类,得到是否蕴含
HYBRID
作者通过修改蕴含对的构造方式,产生了一个相应模型, 原构造方式是
正样本:(文本, 文本对应的标签), 现在修改为 (类别相同的句子1, 类别相同的句子2)
负样本: 类别不同的句子1, 类别不同的句子2)