详细解读Completely Heterogeneous Transfer Learning with Attention - What And What Not To Transfer

本文详细解读了一篇发表在IJCAI2017上的论文,该论文提出了在完全异质迁移学习(CHTL)基础上加入注意力机制的方法,用于自然语言文本分类任务。CHTL处理的是标签和特征空间均不重合的情况,例如英文知识应用于法语文本分类。论文通过Word2Vec映射不同语言的文本,并采用hinge rank loss作为损失函数。通过引入注意力机制和去噪自动编码器优化模型,实验证明了模型在不同语言和类别间文本迁移的优越性。
摘要由CSDN通过智能技术生成

 

 

      

        这篇论文叫做Completely Heterogeneous Transfer Learning with Attention - What And What Not To Transfer,论文的作者来自Carnegie Mellon University,然后这论文发在了IJCAI2017上面。而这篇文章是在其之前发的文章上的改进,大家感兴趣的话可以去搜一下Proactive transfer learning for heterogeneous feature and label spaces,那么在其之前发的这篇论文中提出了一个模型叫做CHTL(Completely Heterogeneous Transfer Learning)接下来我们会详细讲,然后今天要讲的这篇论文是在原有的模型上加入了attention机制,大家可能也发现了attention机制最近大家用的还是蛮多的而且效果确实都有改善。

         首先解释下Completely Heterogeneous Transfer Learning(CHTL),其意思就是完全异质的迁移学习,那么什么交完全异质呢,其实大家原来接触的大多迁移都是比如我学习到了如何区分猫和狗,然后我要利用这个学到的知识迁移到识别老虎的任务中,大家会发现虽然我们在训练的时候没有涉及到老虎但是猫和狗在特征分布上和老虎还是类似的,也就是说虽然sourse和target的标签空间是不重合的,但是他们的特征空间是重合的,即使不重合也有一些显式的联系。而完全异质的迁移涉及到的sourse和target的标签空间和特征空间都是不重合的。举个例子来讲就是我在英文文本上学习到的知识,我没有去迁移到其他的未见的英文文本上而是把这些知识用来了法语文本的相关任务中。

        好了,搞清楚任务是什么。我们接下来看下模型。文章中的任务是自然语言文本分类,先放模型的整体框架上来:

我们可以看到左下方的源数据集中的是关于政治或者药物的英文文本,然后右下角的目标数据集中的是关于政府和运动的文本所以它们的标签空间不重合,然后要注意的目标数据集中文本不是英文文本而是法语,意大利语等文本。也就是说他们的特征空间也是不重合的。那么首先源数据集中 通过一个映射g,目标数据集通过一个映射h投影到一个共同的连接子空间上,具体来讲就是Word2vet。Word2vet是我们这个领域在处理文本数据的一种常见的行为,Word2vet又有一些常用的方法本文采用的是skip-gram方法。我们大家都知道我们的神经网络没有办法去很好地直接地处理这些文本信息,而且这些文本相对来说维度比较低,所以更好的选择就是将其转化为向量,当然转化工程也要遵循一定的规则,就是在未转化前两个单词在语义上是比较近的那么在转化为向量后也要求二者的距离比较近。我之前看过一篇博客对Word2vet做了很详细的介绍但是很可惜没有收藏,一时也找不到后面找到了再推荐给大家吧。那么本文中做Word2vet除了是为了方便处理的基础上更重要的是可以减少两个数据集直接的特征差异(毕竟一个英文一个非英文)然后我们通过一个共同的映射f将二者投影到我们的标签空间中便完成了文本分类问题。

        好了看到这里是不是觉得很简单,事实上却是也比较简单,但是后续还有模型的优化部分。不过我们在介绍优化部分之前还是把这简单的模型公式化的展示一下。其目标函数如下:

我们可以看到损失函数由两个部分构成分别是源数据集上的loss和目标数据集上的loss。然后我们仔细一看,发现问题并不简单,说好的迁移呢。为毛还有目标数据集的训练,博主欺负我读书少。然鹅事实是我们源数据集是完全标记的,然后我们的目标数据集的标记率是很低的,然后我们可以通过后续的实验我们发现这篇文章中的数据集中目标数据集的标记率是0.1,而在训练的过程中正是用的这一小部分的数据来训练的,是不是感觉0.1的标记率有点低,然而还有更低的比如one shot问题和zero shot问题不过这些极端问题一般需要一些先验知识作为辅助工具。正是因为有标记的数据需要大量的人力物力来收集,才催生了迁移学习这个领域。本人也当过苦力标记图像数据,简直不要太辛苦枯燥、乏味,而且标错了才是最让人崩溃的。所以各位同学在用人家的数据集的时候还是要满怀感激好吧。好的扯的有点远,我们回归正题,公式中的f,g,h我们前面介绍过了,然后W就是W大家都懂的。Xs是源数据,Xt是目标数据,Ys表示源数据的标签,Yt是目标数据的标签,上标i表示第i个实例,上标i表示第i个实例,\frac{~}{y}表示的是数据集中不同于_{_{_{_{Y}^{}}^{i}的其他标记,即除了当前处理的数据的标记外的其他的所有标记。看下第二个求和符合就知道了。这里采用了hinge rank loss,我们有必要解释下为什么要用这种形式,我们将公式展开成下面的形式可能更方便理解一点:

上面的这个公式是CHTL的原始公式是作者直接发的论文里的&#x

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值