笔记整理:杜苗增,东南大学硕士,研究方向为多模态信息抽取
链接:https://aclanthology.org/2022.emnlp-main.401.pdf
动机
开放信息提取(OIE)是信息提取(IE)的一个分支,专注于从非结构化自然语言文本中提取结构化信息。几种OIE方法将OIE作为序列标记或序列生成问题。对于OIE的任务,使用词性和依赖标记作为合并语法信息的方式是一种常见的做法。在使用这些标记的工作中,标记的嵌入只连接到相应文本标记的嵌入,这种表述没有充分利用语法信息。序列生成方法容易生成经常表达冗余信息的事实,也容易在事实中生成重复的文本。
本文使用序列生成方法从自然语言文本中逐字生成事实。在依赖树结构的指导下计算输入文本标记的语法丰富的向量表示。根据其依赖树的结构构造其标记的可见性矩阵。还介绍了一种训练神经OIE模型的新方法,添加了一个额外的模块(discriminator)将生成的元组作为输入,将其令牌分类为“真”或“假”。使用覆盖向量来监视输入文本中的单词所接收到的覆盖程度。让当前的注意力机制的决策了解了之前的决策,并更容易避免重复关注输入文本中的相同单词,从而避免在事实中产生重复的文本。此外, 使用模型的上下文向量显式地计算从词汇表或输入文本中选择单词的概率。
贡献
本文的主要贡献有:
(1)一种利用依赖树和图注意力网络结构计算