Hierarchical Attention Based Semi-supervised Network Representation Learning
1. 任务
给定:节点信息网络
目标:为每个节点生成一个低维向量
基于半监督的分层关注网络嵌入方法
2. 创新点:
以半监督的方式结合外部信息
1. 提出SHANE 模型,集成节点结构,文本和标签信息,并以半监督的方式学习网络嵌入
2. 使用分层注意网络学习节点的文本特征, 两层双向GRU 提取单词和句子的潜在特征
3. 背景
1. 现有方法通常基于单词获取节点的文本特征矩阵,忽略分层结构(单词、句子)
2. 不同单词和句子包含不同数量信息,如何评估节点内容的差异性
3. 标签,也是重要的监督信息
4. 网络中存在大量未标记节点,如何合理利用
4. 模型
整合节点的结构,文本和标签信息
基于文本的表示学习
使用分层注意机制
4.1. 问题定义
G = (V, E, T, L)
( V: 节点集
E: 边集合
T: 节点的文本信息
L: 标签节点信息 )
节点u 的文本信息Du = (Su1, Su2,...,Suq)
句子信息 Sui = (Wui..)
给定信息网络,目标:为每个节点u 整合其结构和文本信息 学习一个低维向量 u,
4.2. 基于文本的表示
分层学习可获取不同粒度的文本信息
- 词嵌入:捕获词汇特征
- 句子嵌入: 捕获文本特征
4.2.1. word 编码器
- 使用双向 GRU 编码单词序列
- 使用注意力机制识别重要单词
- 类似:使用双向GRU 编码句子
假设节点 u 包含 q 个句子, 每个句子包含 m 个单词,通过查询获取句子 Sui 的词语序列
使用双向 GRU 编码单词序列
( 通过连接以上两个方向的 h 可包含两个方向的信息,使用注意机制识别词语的重要性,如下)
( Sui 是节点 u 第 i 个句子的嵌入, Cw 是全局的词语向量,a 是用于句子表示,融合单词嵌入的权重)
4.2.2. 句子编码器
类似单词编码器,类似的双向GRU ,得到分层编码的文本嵌入 ut
为了避免新的表示与原始文本的偏差,获取分层关注网络的嵌入后,添加该节点词嵌入的平均值向量 Uta,得到节点 u 的文本表示 ut
4.3. 基于结构的表示
含有边的两个节点结构相似
CANE 中将每个部分的对数似然表示为
( u 与 v 相连接, Wu,v为权重,Us 是基于结构的嵌入)
u 生成 v 的条件概率为
节点 u 的基于结构的嵌入区别于所连接的节点,结构的最终嵌入为与不同节点连接所得的平均值
( E 为 u 的边)
4.4. 半监督的分层网络嵌入
未标记的节点:只考虑结构和文本特征
为了匹配标签丢失的节点,我们通过全连接层将节点的嵌入映射到标签空间,可预测节点的标签分布
( Ll 表示有标签的节点子集,有标签的节点的目标函数为:)
( lamda 是标签损失权重)
SHANE 的全局目标函数: