今年ACL上一篇联合抽取实体和关系的文章提到了pointer networks, 于是先大概了解下什么是pointer networks, 再回头看ACL上的那篇文章
pointer networks文中简称Ptr-Net, 是attention model 的一个变体,首先给出介绍比较详细的attention的文章,稍后讲解Ptr-Net
http://blog.csdn.net/xbinworld/article/details/54607525
这上面链接给出的博文中,很好的解释了attention model的原理以及公式,对我而言,我更喜欢模型的框架和公式,同时作为一个备份,此处也粘贴过来:
attention是:decode生成y
t
_t
t时,需要计算X
1
_1
1到X
T
_T
T对生成y
t
_t
t的贡献
-----------------------------------下面是Ptr-Net paper分割线--------------------------------------
(1)输入句子的长度就是指针网络输出类别的个数,由于输入句子的长度是不同的,所以类别个数是不同的,随着输入句子的不同类别个数也在变化
(2)指针的目的就是给出输入句子中单词的下标位置
值的注意的是:
C
i
C_i
Ci是input sequence的小标值