![244e8831e4594816a275208fa3db1d21.png](https://img-blog.csdnimg.cn/img_convert/244e8831e4594816a275208fa3db1d21.png)
作者 | 南大NLP编辑 | 唐里
本文来自公众号南大NLP,AI科技评论获授权转载,如需转载请联系原公众号。
背景介绍
序列标注任务,例如中文分词(CWS),词性标注(POS),命名实体识别(NER)等是自然语言处理中的基础任务。最近,随着深度学习的发展,神经序列标注方案已经达到了很好的性能,同时也依赖于大规模的标注数据。然而大部分的规范标注数据来自于新闻领域,将在这些数据集上训练的模型应用到其他领域时,模型的性能往往会大幅下降。领域适应(domain adaptation)利用源领域(source domain)的丰富知识来提升目标领域(target domain)的性能,适合用来解决这一问题。我们关注于有监督的领域适应,利用大规模的有标注的源领域数据来帮助仅有少量标注数据的目标领域的学习。
对于序列标注任务,我们观察到一个有趣的现象:不同的目标域句子倾向于和源领域有不同的领域相关性(domain relevance),表1中展示了几个twitter的句子,它们和源领域(新闻)的相关程度不同,同时,句子内部不同的单元(中英文词)也有不同的领域相关性。
![0c012f2e59b3bc19f305fc3f0e33de5b.png](https://img-blog.csdnimg.cn/img_convert/0c012f2e59b3bc19f305fc3f0e33de5b.png)
表1 来自于社交媒体领域的推特和源领域(新闻领域)有不同的领域相关性。在每个例子中,加粗的部分与源领域强相关,斜体的部分与源领域弱相关。
传统的神经序列标注领域适应方案关注于减少源域和目标域集合层面的差异,忽略了样本和元素层级的领域相关性。如图1中,(左) 展示了之前的方案,对于目标域中具有不同领域相关性的样本进行了相同的知识迁移,然而,理想的知识迁移过程如图(右),对于和源领域强相关的样本和元素