论文总结 | Dialogue Relation Extraction with Document-level Heterogeneous Graph Attention Networks

最新推荐文章于 2023-01-18 12:39:57 发布

J.M_

最新推荐文章于 2023-01-18 12:39:57 发布

阅读量783

点赞数 1

文章标签：图注意力网络异构图对话关系抽取消息传递参数关系

本文链接：https://blog.csdn.net/ming_fan1/article/details/109206272

版权

原文地址：https://arxiv.org/pdf/2009.05092.pdf
代码地址：https://github.com/declare-lab/dialog-HGAT

1.论文工作

1.提出基于注意力的异构图神经网络用于对活关系抽取。
2.设计消息传递机制以获取句子间的长距离信息。

2.相关知识

2.1 GAT

【图结构】之图注意力网络GAT详解

2.2 HGNN

有多个类型的节点或边的图称为非对称图神经网络。

3.模型介绍

任务定义：
给定一个包含 $N$ 条语句的对话 $D={u_1,u_2,...u_n}$ ，有一组参数对 $A={(x_1,y_1),...}$ ，找出参数对 $x_i,y_i)$ 之间的关系类型。

模型如Figure 2所示，模型分为三个阶段：
1.语句编码
2.消息传递
3.关系分类

3.1语句编码

对于每条语句（utterance），构建局部BiLSTM：
$e=[e_w;w_p;e_t]$
$e_w$ ：使用GloVe初始化
$e_p$ ：POS信息
$e_t$ ：实体类型信息

$\vec {h_j^i}=LSTM_L(\vec{h^i_{j-1}},e_j^i)$
第 $i$ 条语句中，第 $j$ 层信息由第 $j - 1$ 层输出和本层输入得到。
将双边获得的第 $j$ 层信息向量拼接得 $h_j^i$ 。
最大池化 $h_j^i$ ，得到各条语句的 $c_i$ 。
对于整段对话（Dialogue），构建全局BiLSTM：
$c_i$ 作为各层输入，得到各层输出 $U_i$

3.2消息传递

异构图：
共有5种节点：

语句（utterance）：使用3.1中全局BiLSTM的输出初始化；
单词（word）：本段对话所有单词，使用GloVe初始化；
对话者（speaker）：specific embedding初始化；
参数（argument）：specific embedding初始化；
实体类型（entity-type）：created Entity-Tpye embedding初始化；

其中单词节点、对话者结点、参数节点称为基础节点（basic nodes）

共有5种边：

语句----单词：语句中出现的单词；使用POS信息初始化（获取对话的全局语义信息和单词的局部语法信息）
语句----说话者：
语句----参数：参数定位
单词----实体类型：一个单词可有多种实体类型
参数----实体

后四种边随机初始化。

图注意力机制：

$F(h_i,h_j)=LeakyReLU(a^T(W_i*h_i;W_j*h_j;E_{ij}))（1）$
$a_{ij}=softmax(F(h_i,h_j))=\frac{exp(F(h_i,h_j))}{\sum{_k}exp(F(h_i,h_k)}（2）$
$h_i^\prime=||^K_{k=1}\sigma(\sum_ja_{ij}^k*W_q^k*h_j^i)（3）$
（1）式中 $E_{ij}$ 为边矩阵， $j$ 为节点 $i$ 的邻居；
（3）式表明此为K头注意力，经非线性激活后将输出拼接（||）

消息传递：

共经历5次更新：

$V_u \rightarrow V_b\rightarrow V_t\rightarrow V_b \rightarrow V_u\rightarrow V_b$

其中 $V_u$ 包括utterance node， $V_b$ 包括word node、speaker node、argument node， $V_t$ 包括entity-type node

增加残差连接（residual connection）避免梯度消失：
$\hat{h_i}=\bar{h_i}+h_i^\prime（4）$ 其中 $\bar{h_i}$ 为图注意力层的输出， $h_i^\prime$ 为原始输入。

？？？在消息传递中，除了图注意力操作，还有两层前馈神经网络：
$h_i^{new}=FFN({\hat{h_i}}) (5)$

每次更新包括式子（1）-（5）的操作。

3.3关系分类

取第二阶段的参数节点 $T_x,T_y$ ，以及参数对应的单词节点 $e_x,e_y$ 。

$e_x^\prime=[maxpool(T_x);maxpool(e_x)]$
$e_y^\prime=[maxpool(T_y);maxpool(e_y)]$
$e^\prime=[e_x^\prime;e_y^\prime]$
$P(r|e_x,e_y)=\sigma(W_e*e^\prime+b_e)_r$