Reasoning about Entailment with Neural Attention-学习笔记

最新推荐文章于 2024-09-20 23:31:36 发布

ChanYeol666

最新推荐文章于 2024-09-20 23:31:36 发布

阅读量209

点赞数

分类专栏：论文笔记文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/qq_37385720/article/details/109027888

版权

论文笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Reasoning about Entailment with Neural Attention

LSTM可以学习丰富的语句表示，这些语句适合于确定文本含义。LSTM神经网络很适用于文本蕴含类的任务。
针对识别文本蕴含(RTE)任务提出了一个带有注意力的神经网络。文中的模型能够处理以前提为条件的假设来推理词与词，短语与短语之间的蕴含关系。
文中的整个模型的框架：使用两个LSTMs（A）识别文本蕴涵，一个在premise上，一个在hypothesis上，以及注意仅基于最后输出向量（h9，B）或逐字注意基于假设所有输出向量（h7，h8和h9，C）。
word2vec vectors其实就是简单化的神经网络，在[1]中使用了word2vec向量作为字符向量的初始，但并没有在训练时进行优化。https://arxiv.org/pdf/1509.06664v1.pdf
使用线性层把词向量映射到LSTM的隐藏层大小的维度，形成输入量x_i。
使用softmax层对输出向量的非线性映射的输出进行分类（导致，不相干，矛盾），使用交叉熵进行训练。
拥有注意力的LSTM RTE模型不需要掌握细胞状态的premise整个语义含义。
为了确定一个句子是否蕴含另一个句子，最好的方法就是检查每个词和短语对的蕴含或矛盾的关系。
Word-by-word的attention机制，与基本的attention模型不同的是，不是用注意力来生成单词，而是通过在前提和假设中对单词和短语进行软对齐，从细粒度的推理中获得一个句子对编码。该模型可以生成一个权重矩阵，这时候计算权重并不是使用前LSTM的末态，而是使用前者的全部隐藏输出。从而建立起两个文本序列之间的关系。
加了two-way attention的效果并没有更好，反而更差。[1]分析认为是因为用了相同的参数来做two-way可能会给训练带来更多的影响，所有效果不好。