1. ICLR2016- lstm-based deep learning models for nonfactoid answer selection
提出3个模型
QA-LSTM:利用参数共享的bi-lstm与(mean、max与concatenation之类)pooling操作获得问句与答句的分布式表示,然后进行问句与答句的相似匹配
QA-LSTM/CNN:在QA-LSTM中加入卷积层,对句子中连续m个单词进行卷积以发现局部连接模式:将句子分为若干个大小为m的窗口(
Hm(t)=[H(t),H(t+1),⋯,H(t+m−1)]
),利用卷积核
F=[F(0),F(1),⋯,F(m−1)]
进行卷积操作
oF(t)=tanh[(∑i=0m−1h(t+i)TF(i))+b]
,最后用k-maxpooling进行pooling
QA-LSTM with attention: 答句t时隐变量
ha(t)
与问句嵌入表示
oq
, 则单词级注意模型为如下
- ma,q(t)=tanh(Wamha(t)+Wqmoq)
- sa,q(t)∝exp(WTmsma,q(t))
-
h~a(t)=ha(t)sa,q(t)
本质是:在进行bi-lstm的每一步时都引入问句对该时间步的隐表示进行修正.
2.15-Applying deep learning to answer selection A study and an open task
提出6网络结构进行问答相似度的计算,其中Q与A分别为问句与答句,HL是对分布式表示的各个词
x
进行非线性变换
构造hinge loss损失函数:
L=max{0,m−cos(VQ,VA+)+cos(VQ,VA−)}
3. 16-IARNN(Inner Attention RNN)模型
文献:Inner Attention based Recurrent Neural Networks for Answer Selection
IARNN-WORD模型
对RNN网络的输入进行修正,即:利用问题部分的注意来答句中单词进行distill.
αt=σ(rTqMqixt)
: 借助
Mqi
将问题注意
rq
投影到词嵌入空间中的一个点,并与答句中的当前单词
xt
做内积.
x~t=αt∗xt
: 将标量
αt
作为
xt
的权重来修正
其中
IARNN-CONTEXT模型
动机:the answer sentence may consist of consecutive words that are related to the question, and a word may be irrelevant to question by itself but relevant in the context of answer sentence(单个词语与问句可能没有关系,但多个词语连在一起就可能与问句相关)
方法:引入场景信息来计算各词语的权重。权重计算方法修改如下:
αt=σ((Mhcht−1+Mqcrq)xt)
IARNN-GATE模型
将GRU模型中的内部激励单元加入注意信息:
zt=σ(Wxzxt+Whzht−1+Mqzrq)
ft=σ(Wxfxt+Whfht−1+Mqfrq)