序列标注_EMNLP2019 | 南大NLP，基于细粒度知识融合的序列标注领域适应

最新推荐文章于 2021-12-13 11:05:00 发布

銃君

最新推荐文章于 2021-12-13 11:05:00 发布

阅读量413

点赞数

文章标签：序列标注

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34113453/article/details/112586001

版权

作者 | 南大NLP编辑 | 唐里

本文来自公众号南大NLP，AI科技评论获授权转载，如需转载请联系原公众号。

背景介绍

序列标注任务，例如中文分词(CWS)，词性标注(POS)，命名实体识别(NER)等是自然语言处理中的基础任务。最近，随着深度学习的发展，神经序列标注方案已经达到了很好的性能，同时也依赖于大规模的标注数据。然而大部分的规范标注数据来自于新闻领域，将在这些数据集上训练的模型应用到其他领域时，模型的性能往往会大幅下降。领域适应(domain adaptation)利用源领域(source domain)的丰富知识来提升目标领域(target domain)的性能，适合用来解决这一问题。我们关注于有监督的领域适应，利用大规模的有标注的源领域数据来帮助仅有少量标注数据的目标领域的学习。

对于序列标注任务，我们观察到一个有趣的现象：不同的目标域句子倾向于和源领域有不同的领域相关性(domain relevance)，表1中展示了几个twitter的句子，它们和源领域(新闻)的相关程度不同，同时，句子内部不同的单元(中英文词)也有不同的领域相关性。

表1 来自于社交媒体领域的推特和源领域(新闻领域)有不同的领域相关性。在每个例子中，加粗的部分与源领域强相关，斜体的部分与源领域弱相关。

传统的神经序列标注领域适应方案关注于减少源域和目标域集合层面的差异，忽略了样本和元素层级的领域相关性。如图1中，(左) 展示了之前的方案，对于目标域中具有不同领域相关性的样本进行了相同的知识迁移，然而，理想的知识迁移过程如图(右)，对于和源领域强相关的样本和元素

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
序列标注_EMNLP2019 | 南大NLP，基于细粒度知识融合的序列标注领域适应

作者 | 南大NLP编辑 | 唐里本文来自公众号南大NLP，AI科技评论获授权转载，如需转载请联系原公众号。背景介绍序列标注任务，例如中文分词(CWS)，词性标注(POS)，命名实体识别(NER)等是自然语言处理中的基础任务。最近，随着深度学习的发展，神经序列标注方案已经达到了很好的性能，同时也依赖于大规模的标注数据。然而大部分的规范标注数据来自于新闻领域，将在这些数据集上训练的模型应用到其他领域...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。