论文笔记:PTE: Predictive Text Embedding through Large-scale Heterogeneous Text Network

PTE: Predictive Text Embedding through Large-scale Heterogeneous Text Network

和前几篇目标函数差不多。

步骤

建立异构网络

如下图,通过文本建立起来的网络分为三部分
(1)word-word,每一个word是一个顶点,边上的权重是两个word同时出现的次数。
(2)word-document,word和document是顶点,边是这个word出现在这个文本中的次数。
(3)word-label,这里的label是document的label,label和word是顶点,边上的权重是这个word出现在属于这个label的document的篇数。
在这里插入图片描述

embedding

embedding的目标函数是second-order proximity,其实目标就是在网络中出现的近的点在嵌入后的向量越相似。
首先,两个顶点的相似度:
在这里插入图片描述
对word-word学习的时候的目标函数:
在这里插入图片描述
这里是kl散度。入是顶点vj在网络中的重要性,可以通过度数来得到,目的是为了使得先验概率和学习的概率更相似,这里的先验概率:
在这里插入图片描述
通过kl-散度的到目标函数:
在这里插入图片描述
因此对于整个网络,含有三个组成部分来说,整体的目标函数是三部分之和:
在这里插入图片描述

训练

有两种方法:
在这里插入图片描述

  1. 同时学习,就是有无标签无所谓,按照建立的网络和目标函数一起学习
  2. pre-training and fine-tuning:看算法2,线训练w-w和w-d,再训练含有标签的w-l

总结

论文的目标函数不是特别新颖,使用了KL-散度,很多论文都这么做。
但是论文建立的网络比较新颖,建立了含有多种关系的异构网络,并且运用了标签,部分可以监督。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值