序列标注_EMNLP2019 | 南大NLP,基于细粒度知识融合的序列标注领域适应

244e8831e4594816a275208fa3db1d21.png

作者 | 南大NLP编辑 | 唐里

本文来自公众号南大NLP,AI科技评论获授权转载,如需转载请联系原公众号。

背景介绍

序列标注任务,例如中文分词(CWS),词性标注(POS),命名实体识别(NER)等是自然语言处理中的基础任务。最近,随着深度学习的发展,神经序列标注方案已经达到了很好的性能,同时也依赖于大规模的标注数据。然而大部分的规范标注数据来自于新闻领域,将在这些数据集上训练的模型应用到其他领域时,模型的性能往往会大幅下降。领域适应(domain adaptation)利用源领域(source domain)的丰富知识来提升目标领域(target domain)的性能,适合用来解决这一问题。我们关注于有监督的领域适应,利用大规模的有标注的源领域数据来帮助仅有少量标注数据的目标领域的学习。

对于序列标注任务,我们观察到一个有趣的现象:不同的目标域句子倾向于和源领域有不同的领域相关性(domain relevance),表1中展示了几个twitter的句子,它们和源领域(新闻)的相关程度不同,同时,句子内部不同的单元(中英文词)也有不同的领域相关性。

0c012f2e59b3bc19f305fc3f0e33de5b.png

表1 来自于社交媒体领域的推特和源领域(新闻领域)有不同的领域相关性。在每个例子中,加粗的部分与源领域强相关,斜体的部分与源领域弱相关。

传统的神经序列标注领域适应方案关注于减少源域和目标域集合层面的差异,忽略了样本和元素层级的领域相关性。如图1中,(左) 展示了之前的方案,对于目标域中具有不同领域相关性的样本进行了相同的知识迁移,然而,理想的知识迁移过程如图(右),对于和源领域强相关的样本和元素

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值