Neuraltalk论文解析

最新推荐文章于 2024-08-21 11:30:00 发布

domoNaruto

最新推荐文章于 2024-08-21 11:30:00 发布

阅读量1.5k

点赞数 2

分类专栏：深度学习文章标签： neuraltalk 图像描述多模态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/domoNaruto/article/details/88370250

版权

Neuraltalk旨在实现图像描述，通过物体检测与词句映射到同一向量空间，利用内积衡量相关性。采用BRNN处理句子，结合RNN进行序列学习，最终通过马尔科夫随机场建立图像区域与词序列的对应关系。训练过程利用RNN预测词序列，测试时采用beam search策略生成描述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

瞥一眼图像对人来说足以指出或描述出一个图像的大量细节。可是，这样出色的能力对于我们的图像识别模型来说是难以企及的。之前大部分工作都是给固定类别的做标签，不具有语言描述能力。

neuraltalk所要实现的目标：

其一，标签属于弱标签。即只告诉你一张图片对应的语言描述，但语言描述的物体的具体位置在哪里并不标示出来。通过这样的方式建立两者的联系。
其二，即使知道图片中有什么，我们还无法组织成语言。这个任务就是利用某个模型组织成自然语言，当然语言中单词的个数限制是不存在的，也不同于前人利用语言模板生成语言描述的方法。这是一种更加有效的方法。

下面是基本思想。

首先要知道图片里有什么，即物体检测。说到物体检测，我们回想起来RCNN，这是比较传统也经过了锤炼的方法。使用ImageNet200类检测挑战上的模型，并且进行过微调。我们将连接CNN的最后一层去掉，即全连接层不通过softmax，而是取输出4096维的全连接层作为最后一层，然后将4096维的输出通过另一个网络。

CNN(I)这一项即4096维输出，W权重为h*4096。即我们最后的到的是一个包含图像信息的h维向量。

到此，图像

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。