Neural Baby Talk笔记

在网上看到不少对这篇文章的解析,今天就来总结一下,其中也有个人的见解。


文章的做法是:首先生成一个模板


这个模板里面的插槽对应了需要填入的词所在的region。


对于一张输入的图片,将物体检测的结果和CNN中间层的features输入带有Attention的RNN里,RNN给出s_t和h_t,ht经过softmax生成P_txt^t,而s_t与v_1, v_2, v_3...v_N一起生成P_r^t。


需要注意的是,这里的X操作是一个乘号,将P_txt^t与p(~r|y_1:t-1)相乘,完成以下公式:


再之后进入C操作(Compare),与用region信息生成下一个词的概率进行比较,得出此时应该使用何种信息生成下一个词。

如果直接生成连接词的话,就直接用P_txt^t输出连接词,如果需要用到region的信息,就生成对应的插槽。

RNN with Attention使用的是如下结构的网络:


注意到每个时间步都需要输入y_t, v_1...v_N以及CNN中间层的features。

生成完模板,选择实体对应的词后判断完单复数形式再填入句子。


最终使用的Loss如上,包含了连接词的概率,refinement的部分以及从目标区域生成词语的概率。


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值