[ICLR2017] Bi-Directional Attention Flow for Machine Comprehension

最新推荐文章于 2024-08-28 09:30:09 发布

小妖精Fsky

最新推荐文章于 2024-08-28 09:30:09 发布

阅读量502

点赞数

分类专栏： PaperNotes 文章标签： MC attention

本文链接：https://blog.csdn.net/appleml/article/details/89089206

版权

PaperNotes 专栏收录该内容

77 篇文章

订阅专栏

本文只给出了Context2Query和Query2Context部分的理解
在这里插入图片描述
两部分只是对相似性矩阵 $\bold{S}$ $\in$ $\mathbb{R}^{T*J}$ 进行进一步处理, 我觉得有书写错误，如果看Figure 1可知应该修改为 $\bold{S}$ $\in$ $\mathbb{R}^{J*T}$ 。
Context-to-Query Attention：

这一部分主要针对该绿色小图而言，context中某个词与query中哪个词相关，形象点的表示如图：
在这里插入图片描述
Query-to-Context Attention:
query中某个词与Context中哪个词最相关

但其实我觉得这个做法有点牵强，对与Context-to-query中对列求softmax相比，该部分的操作是对 $h_t$ 列进行Max操作后，也就是针对question 中的{ $u_1$ , $u_2$ , …, $u_J$ }中保留与 $h_t$ 最相关的以 $u_j$ , 针对每一列都如此操作后，得到一个维度为T的向量，对此向量进行softmax, 这怎么就是Query2Context了呢？不理解不理解，有理解的快来帮帮我

如果按照我对Query2Context的理解，应该是针对 $u_j$ 对{ $h_1$ , $h_2$ , …, $h_T$ }，也即是每一行都进行softmax, 这才是真正的Query2Context, 才是题目里所说的双向attention流呼应，不过这样做的引入了新的维度J，在计算上会很麻烦。请赐给我聪明才智让我快速懂了吧？果然读书少就是不能理解这么高深的论文呀