#Paper Reading# Learning to Selectively Transfer:Reinforced Transfer Learning for Deep Text Matching

论文题目:Learning to Selectively Transfer: Reinforced Transfer Learning for Deep Text Matching
论文地址:https://doi.org/10.1145/3289600.3290978
论文发表于:WSDM 2019(CCF B类会议)

论文大体内容:
本文主要提出了一个RTL(Reinforced Transfer Learning)模型,将data selector和transfer learning相结合,以避免source domain和target domain之间的gap过大的问题;

1. 由于使用transfer learning的时候,source domain与target domain之间的gap过大,会对最后transfer learning的结果带来负面作用,这点也类似于lifelong machine learning的多个domain之间的协作。所以如何平衡source domain和target domain之间的gap,或者更直接的做法可以从source domain中选择与target domain相关的样本,这样就能避免transfer learning由于样本而带来的负作用,这也是本文作者尝试的方法;

2. 从RTL框架来看,作者提出的框架主要包含3个部分,
①Base model:这里使用DAM(Decomposable Attention Model)来构建文本匹配的模型;
②Transfer learning model:这里主要使用fully shared的框架,主要是考虑到通用性和简单性,并把主要精力放在Reinforced data selector;
③Reinforced data selector:这里主要根据Transfer learning预学习到的样本表示,source model的loss和prediction,target model的loss和prediction,根据累计的reward来学习,使用的是actor-critic算法;

3. 联合算法如下
 

实验
4. Dataset:
①对于PI(NaturalLanguageInference)任务,使用Quora Question Pairs[1]作为source domain,CIKM AnalytiCup 2018[2]作为target domain;
②对于NLI(Natural Language Inference)任务,使用MultiNLI[3]作为source domain,SciTail[4]作为target domain;

7. Baselines
①Base model;
②Transfer baseline;
③Ruder and Plank;

8. 评测方法
Acc和AUC;

9. 结果


参考资料: 
[1] https://www.kaggle.com/c/quora-question-pairs
[2] https://tianchi.aliyun.com/competition/introduction.htm?raceId=231661
[3] A. Williams, N. Nangia, and S. Bowman. A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference. In NAACL, 2018.
[4] T. Khot, A. Sabharwal, and P. Clark. SciTail: A Textual Entailment Dataset from Science Question Answering. In AAAI, 2018.


以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值