Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism 论文解读
前言:论文名称为迁移对抗,主要引入了两个创新点:
- 如何应用CWS(chinese word segment)的信息(如果直接进行多任务学习共享参数会带来错误传播),此处就是迁移对抗;
- 在bilstm和crf层中间加了self-attention
出发点:能用利用外部中文分词的语料并且通过对抗学习避免语料中的错误引入到模型中,这里加入对抗学习。
过程
从整个图中可以看出包括以下几个模块
- embedding layer
- Shared-private feature extractor
- Self-attention
- Task-specific crf
- Task discriminator
- Training
- embedding layer
主要包括左边NER模型的embedding和CWS的embedding都是独立的,即embedding向量不共享(CWS的embedding纬度多大??也是n吗)
2. Shared-private feature extractor
都是Bi-LSTM来提取特征,shared feature extractor是怎么提取特征的,输入是各个embedding的相加,并不是,每次训练时要不送入NER任务的数据或者CWS的数据
3. Self-attention
其实就是multi-head self-attention
4. Task-specific crf
就是crf,只是NER和CWS对呀的label不一样
5. Task discriminator
怎么进行对抗学习的呢,每次输入时都是一个二分类,[0,1], [1,0]
6.traning
训练时每次只设置一端输入,例如喂入NER的数据集,那么只更新NER相关的模型参数和共享层的参数。
实验结果