lstm论文_LSTM-BASED DEEP LEARNING&ANSWER SELECTION 论文学习

LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION 论文学习

这篇论文基于深度神经网络,任务是answer selection。以往的baseline是biLSTM分别提取question and answer表征,然后计算cosine相似度。本篇论文在此基础上进行了拓展,引进了CNN对q&a进行特征结合,根据question上下文使用attention机制生成answer。

answer selection问题模式如下:给定一个问题q和答案候选池ai,答案长度任意并且一个问题可以对应多个答案。测试时问题的答案不能出现在训练数据集中。那answer selection是QA系统典型的组件,也是应用于知识图谱和信息抽取的独立的任务。

这个问题主要的挑战是,正确答案或许和问题并不具备词汇上面的相关性,他们只是语义相关。另外,答案有时候是有噪音的,并且包含了大量非相关信息。

# ---------------------- 下面介绍一下baseline 模型图 -------------------

d377e6830beb967b472b87f8c863be40.png

结构如上图所示,有个小点提一下,论文中在pool这里试验了平均池化,最大池化,biLSTM最后时刻输出的concat。另外,提到了在cosine之前进行dropout效果很棒。

下面说下目标函数的构建:

c718476eaa3d03c9133cb0642255487e.png

这里选择hinge loss损失函数,意思是只要正确的cosine - 错误的cosine之差小于M,那么L就需要训练,更参。

论文中说,试验中发现question & answer两部分LSTM网络在参数相同时效果好,它的合理性在于共享层的神经网络,q&a的一致性的表征能更好代表输出。而对于参数空间不同的情况,没有q&a之间的约束关系,并且更多的参数使得模型更难训练。

基于以上,现在提出本论文的改进网络架构,如下:

6316e077904e8a6ff6da6c190add43a0.png

对比前面的图,容易发现LSTM上面多了一层conv层,该层的目的是获取q & a的混合特征,而且是多通道特征。这种混合来自于conv的kernel窗口大小。基于这种框架,更能区分出ground truth and incorrect 答案。

上述的改良也还是q&a分别处理自己端的特征,下面提出attention方法,网络如下:

a40fe93b7d3a63be45f34b6b91115577.png
6c96f1cf6061080dfb70b78686f43060.png

从论文给出的公式,我们可以看下attention权重是怎么计算出来的,首先初始化两个系数矩阵,分别作用在question端每个时刻和answer的每个时刻,然后tanh激活。再然后如公式10,再初始化一个系数矩阵,估计目的是规范化shape的,然后softmax计算score。最后将score乘以答案h上,得到了h的加权。

论文的关键信息就介绍这么多~结束。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值