在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。
在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。
点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。
这是 PaperDaily 的第 125 篇文章作者丨姜松浩
学校丨中国科学院计算技术研究所硕士生
研究方向丨机器学习、数据挖掘
语言的表示是自然语言处理中的基础问题也是重要问题,常见的分布式词向量 Word2Vector、Glove 等方法令很多 NLP 研究者和从业人员都受用无穷。然而现有的方法同样存在这诸多问题,本文通过不同颗粒度的有监督语言联合训练方式,实现端到端的语言表示来完成自然语言处理中的常见任务,这种方式具有更强的鲁棒性。
本文是剑桥大学和哥本哈根大学发表于 AAAI 2019 的工作,该方法采用分层次、分阶段获取重要特征的结构来实现不同颗粒度的语言表示学习的方法,并通过规定一些合理有效的目标函数来实现有监督联合训练的目的。
模型介绍
论文作者将其发表于 NAACL 2018 的论文模型 Zero-shot sequence labeling: Transferring knowledge from sentences to tokens [1] 进行改进的最新研究成果。
模型结构
该模型如下所示,其将作者发表于 NAACL 2018 的模型 [1] 由单层结构改为多层结构,从模型结构来看与文本分类模型 HAN [2] 有一定的相似度,但在细节上却有不同的变化。