BI-DAF《BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION》笔记

本文详细介绍了BI-DIRECTIONAL ATTENTION FLOW (BI-DAF) 用于机器理解的模型,包括编码层的Character Embedding、Word Embedding、Contextual Embedding和Highway Network,交互层的注意力机制,以及输出层的开始和结束位置概率计算。文章还提到了交叉熵损失函数,并提供了相关论文链接。
摘要由CSDN通过智能技术生成

image-20211021163616978

编码层

Character Embedding Layer

image-20211029142441377

Char-CNN,防止OOV词

Word Embedding Layer

Glove

Contextual Embedding Layer

解决一词多义的问题。用LSTM进行编码。

比如apple这个单词,可以做苹果,也可以作为手机。

Highway Network

调整单词嵌入和字符嵌入的贡献比,用来做平衡。

前馈神经网络:

将权重矩阵W与y相乘。

在W*y中添加偏差b。

对W*y应用非线性函数g,如Relu或Tanh。

image-20211021164505515

高速神经网络:

只有一小部分的输入将受到上述步骤的影响,剩下的一小部分允许通过未转换的网络。这些部分输入的大小由转换率t和携带率1-t来控制,通过sigmoid函数计算t值,在0-1之间。通俗说,t=0,y不经过非线性函数g。

image-20211021164518022

image-20211021164551635

交互层

  • 计算相似度矩阵
  • Context-to-query 注意力计算,计算query中每个word与context中word的相似度
  • Query-to-context 的注意力计算,取出每一行最大值
  • 用context中的word进行计算

输出层

开始位置概率:image-20211022154425880

结束位置概率:image-20211022154431398

交叉熵损失函数:image-20211022154435898

论文与参考资料

http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend.pdf

https://arxiv.org/abs/1611.01603

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值