camel论文阅读笔记《Camel: Content-Aware and Meta-path Augmented Metric Learning for Author Identification 》

    前几天读了18年的这篇文章《Camel: Content-Aware and Meta-path Augmented Metric Learning for Author Identification 》,将自己的阅读笔记分享给大家,共同学习共同进步!

      这篇文章主要介绍的是作者识别(author identification)问题。作者识别问题是指基于某个T时间之前的所有论文(paper)和它们的作者(author),以及所属机构(organization),或者发表会议(venue)这些已知的历史数据之间的关系,构建一个模型(learning model),然后对T时间之后发表的匿名的论文(anonymous paper)能识别出它们可能的作者(potential authors)是谁(对所有候选作者进行排序,排序靠前的认为是识别出来的论文可能的作者)。如下图所示:


    本文中作者首先提出了一个可行的模型,模型名为度量学习模型(metric learning model),然后使用了一些方法(比如,元路径 meta-path,增强的skipgram模型)对该模型进行增强,最后得到一个联合模型(joint model),也就是本文最终实验使用的模型。如下图,左上角虚线框内是各种节点之间关系的已知历史数据,然后下方的元祖直接关系(direct triple relations)就是提取了历史数据中paper和true author以及false author之间的关系(例如图中元祖(P1,A1,A3)就是说明论文P1的真实作者是A1,虚假作者是A3,这样的关系称为直接关系),构成了一个基本可行的度量学习模型(metric learning model),这个模型的目标函数就是L metric。然后,历史数据右边的使用元路径游走(meta-path walk)以及改进的skipgram模型提取历史数据中的间接关系(间接关系包括同一篇论文的作者,同一个机构的作者,或者同一个会议的论文等)得到的L MWIL 就是对基本可行模型的增强部分。这两个部分结合起来就得到了本文的目标------联合模型(joint model)。


    下面分三部分为大家介绍,第一是基本可行的模型--度量学习模型(metric learning model),第二是对其进行增强的方法。第三介绍联合模型(joint model)。

    第一:度量学习模型(metric learning model)使用历史数据中直接关系,就是论文,真实作者,虚假作者的关系。然后基于这些关系得到度量学习模型的损失函数,如下图:


其中v表示论文,I<T表示时间T之前的历史数据,lv表示论文v的所有真实作者,所以上式中u表示真实作者,u'表示虚假作者。距离度量dist(v,u)采用的是欧式距离,如下图:


其中Ev是指论文v的向量表示,qu是指作者u的向量表示。pv是指论文v的摘要的词序列。函数f是学习论文的向量表示的一种模型,本文使用的是门控循环神经网络(Gated Recurrent Neural Network),如下图:


上图中给出了将论文v进行编码得到它的向量表示 f(qv) = Ev 的过程,基本的思想是:w序列是论文v的摘要的单词序列,tmax是摘要的长度。经过一个词编码模型word2vec,得到摘要的每个单词词向量x,然后经过一系列门控循环单元(GRU),得到包含论文上下文语义关系的词向量h,最后经过一个平均值池化mean pooling,得到论文v的向量表示 f(qv) = Ev 。

回到损失函数L metric上来,式中的{x}+ 指的是 max (x,0),ξ 是一个安全边界值(safety margin size),保证{ }内的值为正,那么这个损失函数的意义就是,最小化这个损失函数就意味着论文v与它的真实作者u的距离更近,与它的虚假作者u'的距离更远。如上图的第二部分图所示,圆环是安全边界值,真实作者q1和q2会离论文p1越来越近,而虚假作者q3和q4会离论文p1越来越远,这符合我们的目标,找出论文的真实作者。

本文使用梯度下降(GD)的方法训练这个模型,经过训练之后可以得到GRU的参数,以及作者的向量表示模型。然后给定一个匿名的论文,就可以使用这个模型得到该论文的向量表示以及候选作者的向量表示,然后对它们进行内积运算,将运算结果排序即可得到可能的作者。

    

    第二:要认识到,其实第一步的度量学习模型已经可以解决作者识别的问题了,但是本文为了提高精度,又对度量学习模型做了一些增强,使之效果更好。增强的方法是从历史数据中再提取一些间接关系,间接关系包括同一篇论文的作者,同一个机构的作者,或者同一个会议的论文等这样的。因为度量学习模型只使用了论文和作者的直接关系,没有利用到机构,会议等的关系,所以可以增强。

本文用历史数据构建一个学术异构网络(academic Heterogeneous Networks),使用meta-path walk方法获取间接关系,然后使用改进的skipgram模型对间接数据建模,得到 L MWIL 部分,再与 L metric 组合为联合模型。简单介绍一下,meta-path就是在异构网络中的一种路径,,o是各种类型的节点,r 是节点之间的关系。比如本文中采用的三种路径,APA就是作者--论文--作者的关系,APPA就是作者--论文--论文--作者的关系,APVPA就是作者--论文--会议--论文--作者的关系,一般取meta-path为对称的。使用meta-path walk在网络中寻找元祖及关系,然后建立模型,该模型损失函数为如下图:


该模型是在skipgram模型的基础上进行了一些修改,关于skipgram模型的问题请自行百度。使用这个模型就可以提取出历史数据中的间接关系。


第三:将度量学习模型和第二步的模型结合起来,得到联合模型joint model,联合模型的损失函数如下图:


第二项的系数是用来平衡直接关系和间接关系的,第三项是正则项,用来控制参数的规模。将一,二部分的公式带入,得到联合模型的最终公式为下图,其中最后一项是该模型所有的参数。


然后最小化该公式,本文使用的是Adam方法,即可得到camel模型。


    本文的作者进行了大量的实验,结果表明,这个camel模型在作者识别方面的效果很好,比很多模型结果都要好。实验准备及实验结果文章中写得比较详细,也比较简单,这里就不一一说明了。

    如果博客有问题或者有不懂的地方,欢迎大家留言沟通交流。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值