公众号关注 “忆语臻言”
设为 “星标”,一起学习进步!
本文介绍ICLR2017的一篇文章,题目为"transfer learning for sequence for sequence tagging with hierarchical recurrent networks"
0、作者和单位
最近具有影响的XLnet也是该文第一作者杨植麟提出。
一、任务
本文系统的研究了序列标注任务中跨语言、跨任务、跨领域的迁移学习问题,是一篇偏分析类的文章。
二、模型
文中提出了三种结构:
1) T-A,是一种用于跨领域的模型,其中共享了所有参数,输出空间适用于label直接能够进行相互映射(例如,Genia生物医学语料库中的POS标签可以映射到Penn Treebank标签)。
我理解的是混合了两个领域的数据,直接一起训练,然后能够用于预测两个领域的数据。
2) T-B 适用于两个领域数据label直接不能进行映射的情况,贡献了底层参数,给每个领域单独的CRF输出层训练,在本文中,跨任务也使用该模型,这也是目前最朴素,最常用的multi-task框架。
3)T-C 用于跨语言,贡献了其中embedding层的参数,其它参数为语言特定。
这三个结构已经在目前得到了非常广泛的应用,是一种做跨领域,跨任务的基本baseline。
三、实验
从上图可以看出,不管是跨语言,跨任务,跨语言,利用了迁移学习持续的好于没有使用迁移学习方法。
也跟目前的sota方法进行了对比:
我们能看出两点:
1)我们的迁移方法几乎在所有数据集到达了新的sota结果,表明我们方法的有效性
2)我们的基本模型(w/o transfer)的表现也接近之前sota的性能,表明我们能够在强baseline上进一步取得提高。
这些套话,大家可以学习。
四、贡献
1、本文设计不同的结构系统的研究了序列标注任务上跨语言,跨领域,跨任务的迁移。
2、为后续序列标注相关的研究打下了基础。
往期精彩回顾
适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(pdf更新到25集)备注:加入本站微信群或者qq群,请回复“加群”获取一折本站知识星球优惠券,请回复“知识星球”喜欢文章,点个在看