GNN NLP(15) Hierarchical Heterogeneous Graph Representation Learning for Short Text Classification

在这里插入图片描述
EMNLP2021.

Method

本文提出了一个基于图神经网络的短文本分类框架,用于捕捉短文本之间的稀疏语义关系。具体来说,提出了两种不同的构图方式:word-level component graphs以及short document graph。前者描述了词、词性标签和实体之间的交互作用,该组件图易于提取,并携带额外的语义和句法信息以弥补上下文信息的不足;后者是动态学习和优化的,以编码短文档之间的相似性,从而使更有效的标签传播之间的连接相似的短文档。
词级别的图一共有三种类型 τ ∈ { w , p , e } \tau \in \{w,p,e\} τ{w,p,e} w w w表示一单词之间的关系图, p p p使用POS标记短文中每个词的名词、动词等句法角色,有助于区分歧义词, e e e对应于能在辅助知识库中找到的词,以便补充知识。文档图则是自动学习的,自适应地为相似的文档之间添加边。

Word-Level Component Graphs

Node Embedding Learning

在给定相应的word图之后,本文使用简单的GCN进行节点特征学习:
在这里插入图片描述

Graph Construction

Word Graph G w G_w Gw。使用互信息进行构建:
在这里插入图片描述
其中 v w i v_w^i vwi表示单词节点,当互信息大于0说明单词之间存在正向关系,因此添加边。之后,节点初始化为一个one-hot向量 x w i x_w^i xwi,然后使用公式(1)进行学习,得到 H w H_w Hw
POS Tag Graph G p G_p Gp。同 G w G_w Gw类似,先使用NLTK对数据进行词性标注,然后以词性为节点 V p V_p Vp,通过计算词性之间的互信息构建图:
在这里插入图片描述
Entity Graph G e G_e Ge。通过链接到外部知识库NELL进行实体的查找,一般来说一句话通常只包含一个实体,因此无法计算实体之间的互信息。因此,本文对NELL知识图谱首先做了一个TranE的嵌入,然后计算实体之间的余弦相似性 c ( v e i , v e j ) c(v_e^i,v_e^j) c(vei,vej),并构建实体之间的边:
在这里插入图片描述

Short Document Graph

文档图使用 G s G_s Gs进行表示,旨在捕捉文档级别的相似度并进行标签传播学习。 G s G_s Gs节点的特征可以由word-level图的层次池化得到。

Hierarchical Pooling

给定由公式(1)计算的 H τ ∈ R ∣ V τ ∣ × d H_\tau \in R^{|V_\tau|×d} HτRVτ×d,使用如下方式进行池化:
在这里插入图片描述
这里, u ( x ) = x / ∣ ∣ x ∣ ∣ 2 u(x)=x/||x||_2 u(x)=x/x2,用于对特征的normalization,然后 s τ s_\tau sτ应该是一个 ∣ D ∣ × ∣ V τ ∣ |D|×|V_\tau| D×Vτ的矩阵,用于将单词特征聚合到文档特征上。 s τ i s_\tau^i sτi的生成方式如下:

  • τ = w , p \tau=w, p τ=w,p,使用 v τ v_\tau vτ以及文档 v s v_s vs之间的TF-IDF构建边:
    在这里插入图片描述
    而后,需要normalize s τ s_\tau sτ
    在这里插入图片描述
  • τ = e \tau=e τ=e,则如果实体 v e j v_e^j vej在文档 v s i v_s^i vsi中,那就是1,否则边值就是0。同样,也需要进行normalize。

之后,三种不同类型词图对应的特征进行拼接得到相应文档的特征表示:
在这里插入图片描述

Dynamic Graph Learning

之后,采用文档特征之间的相似度去学习邻接矩阵:
在这里插入图片描述
最终,文档节点的标签概率分布由另外两层GCN学习得到:
在这里插入图片描述
损失函数是简单的交叉熵:
在这里插入图片描述

Experiments

数据集:
在这里插入图片描述
实验结果:
在这里插入图片描述
参数数量:
在这里插入图片描述
不同图组件的消融实验:
在这里插入图片描述
在这里插入图片描述
一些参数分析:
在这里插入图片描述

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五月的echo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值