论文笔记_ED_Gate Diversity and Syntactic Importance Scores for Graph Convolution Neural Network

最新推荐文章于 2023-06-26 08:11:13 发布

IMchg

最新推荐文章于 2023-06-26 08:11:13 发布

阅读量566

点赞数

分类专栏： python之深度学习 nlp之论文笔记

本文链接：https://blog.csdn.net/imchg/article/details/115908902

版权

python之深度学习同时被 2 个专栏收录

11 篇文章 1 订阅

订阅专栏

nlp之论文笔记

3 篇文章 0 订阅

订阅专栏

Abstract

GCN在ED中表现好，但是还存在问题；
1.目前应用GCN时，GCN中隐藏向量在计算时没有考虑候选触发词（而ED的目标就是触发词分类），这样可能引入了无关系的信息；
2.目前ED中，没有利用单词的上下文重要性得分信息，这个信息能从GCN中获取；
作者的工作：
1.提出门机制：过滤GCN隐藏向量中的噪音信息；
2.门的上下文多样性；
3.重要性得分一致性；

一 Introduction

作者认为ED中的GCN应用存在两个问题：
1.GCN没有考虑候选触发词，GCN的隐藏向量中可能包含与候选触发词无关的冗余、噪音信息，影响模型表现；作者打算过滤GCN隐藏向量中的噪音信息，只保留与候选触发词相关的信息；作者引入门机制，作为触发词无关信息过滤器，每一个GCN层加一个门；另外，不同GCN层的隐藏向量捕捉不同层次的上下文信息，因此不同的GCN层也应该不同，作者通过在总损失函数里加一个正则化项来反映门的区别；【没看作者之前的论文，看样子作者之前的论文中应该用过候选触发词的做法，还是在DMCNN中看过这样的做法】
2.目前的GCN中没有利用每个词的上下文重要性得分；之前的GCN模型在产生候选触发词的表示向量时，主要关注在依赖图上与之最接近的邻居结点；作者认为虽然非邻居结点不直接携带对候选触发词有用的上下文信息，但这些词的重要性得分也是有用的信息；作者先根据依赖树中，各词与候选触发词的距离表示每个词基于图的重要性得分，再根据GCN中的隐藏向量计算每个词基于模型的重要性得分，并以二者一致为目标【也就是以基于图的得分作为基于向量得分的监督？】，这样基于图的得分就能增强表示学习的效果；

二 Related Work

之前的ED包括：基于特征工程的统计模型（2015年之前）、神经网络模型（CNN、RNN）、注意力机制、上下文嵌入、对抗训练。最近几年的图卷积网络。

三 Model

ED任务包括触发词识别、事件分类两个任务。通过引入表示非事件的None类，将两个任务合并为一个多分类任务【这个说法很厉害啊】。可以描述为：给定一个句子X = [x1, x2, . . . , xn]，给定一个候选触发词索引t (1 ≤ t ≤ n)，预测候选触发词xt的事件类型。
作者的模型包括三个模块：句子编码器、GCN和门多样性【也就是Introduction中的第一点】、图和模型一致性【也就是Introduction中的第二点】；

3.1 句子编码器

使用预训练的Bert，输入为 [[CLS], x1,· · · , xn,[SEP], xt,[SEP]] ，将最后M层的输出求平均值作为词的表示向量E = {e1,· · · , en}【这里没说清楚，到底是拼接还是求平均值】；然后再输出到BiLSTM，得到最终词的向量表示h0= {h01,· · · , h0n}；

3.2 GCN和门的多样性：

根据依赖树建立图的邻接矩阵，加上相反边和自循环边，提升图中的信息流。堆叠L个GCN层，句子编码器的输出h0作为第一层GCN的输入，上层GCN的输出作为下层GCN的输入，见下图1。每个GCN层作为过滤器的门向量g，由候选触发词的嵌入向量得到，如下图2【这个e是Bert的输出，还是LSTM的输出？Bert吧】。每层过滤后的向量为GCN输出和门向量做矩阵元素乘法【element-wise product，也就是对应元素相乘】的结果，如下图3。
由于每层的GCN模块都只能访问到特定的邻居【这里没看明白，指的是特定距离吗？】，每层GCN捕捉到的上下文信息不同。对应的，门用于控制信息，那么各层的门应该也有所不同。也就是说，当不同层的门同时作用在某一层的隐藏向量时，他们的输出应该是不同的，而且输出差异越大表明门的差异越大。将某一层所有结点过滤后的向量做max_pool作为该层的过滤后的向量，用于计算门多样性损失函数，如下图4、5、6。作者认为不同层的门向量和GCN相乘的意义是：门向量中包含控制信息，隐藏向量中包含上下文信息。【注意了：上面一段是前向传播，这一段的输出应该只用在计算损失函数】。
在这里插入图片描述

在这里插入图片描述

3.3 图和模型间的一致性

就是用依赖图中的信息监督模型。不管是基于图还是基于模型，所谓重要性是在预测候选触发词事件类别中的，最后都是以候选触发词为中心计算某种相关性，来表示词的重要性。
计算每个词基于图的重要性得分p，用每个词于候选触发词的负距离表示基于图的重要性得分，如下图1。
计算每个词基于模型的重要性得分q。先计算出最终的特征向量V，这个特征向量就是最终用于预测触发词类别的，如下图2。作者认为，单词越重要那么携带的有用信息就越多，那么他的最后GCN层的输出也会与前面的V越相似，计算相似度的公式如下图3。
最后，将基于图的重要性得分P和基于模型的重要性得分Q归一化。Q的归一化使用Softmax。然后计算二者的KL散度作为损失函数，如下图4。

在这里插入图片描述

3.4 总损失函数

由3.3中的V计算候选触发词事件类别的概率分布，计算负对数似然性作为损失函数，如下图1。并得到总损失函数，如下图2。

在这里插入图片描述

四实验

4.1 数据集：ACE2005、LitBank(只能二分类事件识别)

特别提到：2019年那篇80.7%的论文，这里作者说复现只有76.2%。作者说ED数据集很小，数据预处理(tokenization, sentence splitting, dependency parsing,and selection of negative examples) 对模型的影响很大，作者认为既然这篇文章使用了共享的数据集分割方式，那么应该是数据预处理造成了复现的差异【2019年这篇文章没用BIO标注吧，本文用了BIO没？应该是用了吧，文章中看到说事件实体用没用】。
【这个作者也是扯淡，他一边说要使用相同的数据预处理来衡量ED模型的性能，但是他并没有给出他数据预处理的代码或细节。只说了和他之前发的文章处理方式一致，他之前的文章里面也没给代码，他这里实验的Baseline，要么都是他自己之前发的文章，要么是他自己复现的。】

4.2 超参数：在验证集上调整的

Bert：Bert Base版本，训练过程冻结参数；词向量取12层的平均值；
BiLSTM：1层、128个隐藏单元；
GCN：2层，128个隐藏单元，128维；
Adam优化器：学习速率5e-5，α=0.1，β=0.2；

4.3 结果：

baseline包括：非上下文嵌入的模型、上下文嵌入的模型，也就是是否使用Bert。

在这里插入图片描述
上面三个是非上下文嵌入模型，都是作者之前发的文章。下面两个是作者复现的。
比第二名高了1.4%，p < 0.05有显著性差异。

4.4 消融实验：

在验证集上做的
在这里插入图片描述
主要三部分：门、门多样性损失函数、图和模型重要性分数一致性。去掉门时也会一并去掉门多样性损失函数。
去掉任何组件都会导致模型表现下降，因此每个组件都重要。
【1.这个也是，测试集结果高于验证集；2.而且注意，去掉门+一致性（也就是三个组件全部去掉了），结果竟然比去掉多样性+一致性高，也就是说这时候加了门反而降低了？】