Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism
论文要点
这篇本质是迁移学习的文章,将CWS任务数据迁移到NER任务上;而使用对抗迁移学习的框架,在利用共享任务中的边界信息的同时,过滤分词任务的特有信息以免干扰NER任务【数据分布,分词粒度不一等】,对抗迁移学习是将对抗学习合并到迁移学习中。引入对抗学习保证CWS只利用task-shared词边界信息:
模型框架
- 以char生成emb,虽然图中NER和CWS的emb画为两部分,不过这个应该是共享的
- NER和CWS任务各有一个share和private的特征抽取器,为BiLSTM,share的特征抽取器即为提取任务共享边界信息
- 使用multi head Self-Attention获取全局结构信息,将share和private结果拼接输入到CRF,计算NER和CWS任务的loss
- share层特征参与对抗学习,判断输入句子来自哪个任务数据集,其中梯度有个【Gradient Reversal】目的是希望共享结构不会包含任务信息的判断,不直接取反,是因为,二分类Loss取反时,还是能够起到分类作用的
- 最后训练用的Loss:
模型效果
- 模型效果:CSW任务使用MSR数据集
- 各部分组件效果对比:
模型缺点
核心创新在于引入对抗训练,不过这个对抗训练的Loss效果存疑,仅在两个小规模数据集验证