概述
作者提出一种随即回答网络(stochastic answer network)来解决NLI问题.
和之前的模型根据输入直接预测结果不同, 该模型维护一个状态并迭代地改进其预测.
与单步推理相比, 这种多步推理方法可以对更复杂的推理任务进行建模.
模型
single-step inference architecture
单步推理网络结构就是利用输入的premise和hypothesis直接预测结果.
Multi-step inference with SAN
定义了一个新的循环状态 s t s_t st, 模型在生成最终输出之前, 每个时间步迭代生成 s t s_t st, 将 s T s_T sT作为最终的输出.
模型结构分为四部分:
- Lexicon encoding layer: compute word representation
- contextual encoding layer: modifie word representation in context
- memory generation layer: gather information from premise and hypothesis, form a “working memory” for the final answer module
- final answer module: type of multi-step network, predicts the relation between the premise and hypothesis.
Lexicon Encoding layer
首先, 将词向量和字向量做拼接, 这样可以比较好的解决OOV问题.
之后将拼接向量输入到两层Position-wise前馈网络得到最终的lexicon embedding E p ∈ R d × m , E h ∈ R d × n E^p\in \R^{d\times m}, E^h\in \R^{d\times n} Ep∈Rd×m,E