Neuraltalk论文解析

Neuraltalk旨在实现图像描述,通过物体检测与词句映射到同一向量空间,利用内积衡量相关性。采用BRNN处理句子,结合RNN进行序列学习,最终通过马尔科夫随机场建立图像区域与词序列的对应关系。训练过程利用RNN预测词序列,测试时采用beam search策略生成描述。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

瞥一眼图像对人来说足以指出或描述出一个图像的大量细节。可是,这样出色的能力对于我们的图像识别模型来说是难以企及的。之前大部分工作都是给固定类别的做标签,不具有语言描述能力。

neuraltalk所要实现的目标:

  • 其一,标签属于弱标签。即只告诉你一张图片对应的语言描述,但语言描述的物体的具体位置在哪里并不标示出来。通过这样的方式建立两者的联系。

  • 其二,即使知道图片中有什么,我们还无法组织成语言。这个任务就是利用某个模型组织成自然语言,当然语言中单词的个数限制是不存在的,也不同于前人利用语言模板生成语言描述的方法。这是一种更加有效的方法。

下面是基本思想。

 

首先要知道图片里有什么,即物体检测。说到物体检测,我们回想起来RCNN,这是比较传统也经过了锤炼的方法。使用ImageNet200类检测挑战上的模型,并且进行过微调。我们将连接CNN的最后一层去掉,即全连接层不通过softmax,而是取输出4096维的全连接层作为最后一层,然后将4096维的输出通过另一个网络。

CNN(I)这一项即4096维输出,W权重为h*4096。即我们最后的到的是一个包含图像信息的h维向量。

到此,图像

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值