Stochastic Answer Networks for Natural Language Inference阅读笔记

最新推荐文章于 2022-10-10 20:43:21 发布

Leokb24

最新推荐文章于 2022-10-10 20:43:21 发布

阅读量975

点赞数

分类专栏：论文阅读文章标签： SAN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leo_95/article/details/90062610

版权

本文介绍了Stochastic Answer Network (SAN)模型，用于解决自然语言推理任务，通过多步推理来处理复杂任务。模型包括词汇编码、上下文编码、记忆层和答案模块，其中注意力机制和循环状态更新是关键。实验部分讨论了实现细节，如词嵌入、字符编码和BiLSTM的设置，并展示了模型的性能表现。

摘要由CSDN通过智能技术生成

文章目录

概述
模型
实验
- 实现细节
- 实验结果

概述

作者提出一种随即回答网络(stochastic answer network)来解决NLI问题.
和之前的模型根据输入直接预测结果不同, 该模型维护一个状态并迭代地改进其预测.
与单步推理相比, 这种多步推理方法可以对更复杂的推理任务进行建模.

模型

single-step inference architecture
单步推理网络结构就是利用输入的premise和hypothesis直接预测结果.

Multi-step inference with SAN
在这里插入图片描述
定义了一个新的循环状态 $s_t$ , 模型在生成最终输出之前, 每个时间步迭代生成 $s_t$ , 将 $s_T$ 作为最终的输出.

模型结构分为四部分:

Lexicon encoding layer: compute word representation
contextual encoding layer: modifie word representation in context
memory generation layer: gather information from premise and hypothesis, form a “working memory” for the final answer module
final answer module: type of multi-step network, predicts the relation between the premise and hypothesis.

Lexicon Encoding layer

首先, 将词向量和字向量做拼接, 这样可以比较好的解决OOV问题.
之后将拼接向量输入到两层Position-wise前馈网络得到最终的lexicon embedding $E^p\in \R^{d\times m}, E^h\in \R^{d\times n}$

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。