Neural Baby Talk笔记

最新推荐文章于 2024-04-16 10:14:02 发布

大西瓜瓜瓜瓜瓜

最新推荐文章于 2024-04-16 10:14:02 发布

阅读量2.6k

点赞数

文章标签： Image Caption Deep Learning 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35513824/article/details/80412823

版权

在网上看到不少对这篇文章的解析，今天就来总结一下，其中也有个人的见解。

文章的做法是：首先生成一个模板

这个模板里面的插槽对应了需要填入的词所在的region。

对于一张输入的图片，将物体检测的结果和CNN中间层的features输入带有Attention的RNN里，RNN给出s_t和h_t，ht经过softmax生成P_txt^t，而s_t与v_1, v_2, v_3...v_N一起生成P_r^t。

需要注意的是，这里的X操作是一个乘号，将P_txt^t与p(~r|y_1:t-1)相乘，完成以下公式：

再之后进入C操作(Compare)，与用region信息生成下一个词的概率进行比较，得出此时应该使用何种信息生成下一个词。

如果直接生成连接词的话，就直接用P_txt^t输出连接词，如果需要用到region的信息，就生成对应的插槽。

RNN with Attention使用的是如下结构的网络：

注意到每个时间步都需要输入y_t, v_1...v_N以及CNN中间层的features。

生成完模板，选择实体对应的词后判断完单复数形式再填入句子。

最终使用的Loss如上，包含了连接词的概率，refinement的部分以及从目标区域生成词语的概率。

大西瓜瓜瓜瓜瓜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大西瓜瓜瓜瓜瓜 CSDN认证博客专家 CSDN认证企业博客

码龄8年

2: 原创

209万+: 周排名

155万+: 总排名

3552: 访问

: 等级

57: 积分

1: 粉丝

0: 获赞

2: 评论

1: 收藏

私信

关注

热门文章

最新评论

Neural Baby Talk笔记
孑珏回复月半rai: 同样不懂X这个操作，方便加QQ交流吗？
Neural Baby Talk笔记
月半rai: 作者你好，X操作代表了语言模型生成的单词的概率和使用语言模型的单词的概率的乘积、那region的权重不需要再乘（1-使用语言模型的概率）吗？

最新文章

Collective Entity Linking in Web Text: A Graph-Based Method 论文阅读

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。