lstm论文_LSTM-BASED DEEP LEARNING&ANSWER SELECTION 论文学习

最新推荐文章于 2024-06-07 14:06:26 发布

weixin_39791322

最新推荐文章于 2024-06-07 14:06:26 发布

阅读量642

点赞数

文章标签： lstm论文双层lstm每层有自己的权重参数吗

LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION 论文学习

这篇论文基于深度神经网络，任务是answer selection。以往的baseline是biLSTM分别提取question and answer表征，然后计算cosine相似度。本篇论文在此基础上进行了拓展，引进了CNN对q&a进行特征结合，根据question上下文使用attention机制生成answer。

answer selection问题模式如下：给定一个问题q和答案候选池ai，答案长度任意并且一个问题可以对应多个答案。测试时问题的答案不能出现在训练数据集中。那answer selection是QA系统典型的组件，也是应用于知识图谱和信息抽取的独立的任务。

这个问题主要的挑战是，正确答案或许和问题并不具备词汇上面的相关性，他们只是语义相关。另外，答案有时候是有噪音的，并且包含了大量非相关信息。

# ---------------------- 下面介绍一下baseline 模型图 -------------------

结构如上图所示，有个小点提一下，论文中在pool这里试验了平均池化，最大池化，biLSTM最后时刻输出的concat。另外，提到了在cosine之前进行dropout效果很棒。

下面说下目标函数的构建：

这里选择hinge loss损失函数，意思是只要正确的cosine - 错误的cosine之差小于M，那么L就需要训练，更参。

论文中说，试验中发现question & answer两部分LSTM网络在参数相同时效果好，它的合理性在于共享层的神经网络，q&a的一致性的表征能更好代表输出。而对于参数空间不同的情况，没有q&a之间的约束关系，并且更多的参数使得模型更难训练。

基于以上，现在提出本论文的改进网络架构，如下：

对比前面的图，容易发现LSTM上面多了一层conv层，该层的目的是获取q & a的混合特征，而且是多通道特征。这种混合来自于conv的kernel窗口大小。基于这种框架，更能区分出ground truth and incorrect 答案。

上述的改良也还是q&a分别处理自己端的特征，下面提出attention方法，网络如下：

从论文给出的公式，我们可以看下attention权重是怎么计算出来的，首先初始化两个系数矩阵，分别作用在question端每个时刻和answer的每个时刻，然后tanh激活。再然后如公式10，再初始化一个系数矩阵，估计目的是规范化shape的，然后softmax计算score。最后将score乘以答案h上，得到了h的加权。

论文的关键信息就介绍这么多~结束。

weixin_39791322

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lstm论文_LSTM-BASED DEEP LEARNING&ANSWER SELECTION 论文学习

LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION 论文学习这篇论文基于深度神经网络，任务是answer selection。以往的baseline是biLSTM分别提取question and answer表征，然后计算cosine相似度。本篇论文在此基础上进行了拓展，引进了CNN对q&a进行特征结合，根据que...
复制链接

扫一扫