每周一起读 | 多模态专题阅读小组

最新推荐文章于 2022-11-30 13:02:09 发布

weixin_34376986

最新推荐文章于 2022-11-30 13:02:09 发布

阅读量178

点赞数

文章标签：人工智能

原文链接：https://yq.aliyun.com/articles/175295

版权

从本周起，PaperWeekly 的多模态小组将开始发起「每周一起读」活动，我们将每周选定一篇优质文章，并提供可撰写读书笔记和在线协同讨论的阅读工具。如果你也希望和我们一起培养良好的阅读习惯，在积极活跃的讨论氛围中增长姿势，就请留意下方的招募信息吧：）

多模态小组招募

本期「每周一起读」，我们将一起精读下文并发起协同交流。参与者需具备多模态（Image Capiton/VQA）方向的研究背景，活动细则详见文末。

An Empirical Study of Language CNN for Image Captioning

文章来源：

https://arxiv.org/abs/1612.07086

推荐理由：

本篇论文提出了用 CNN 模型来对单词序列进行表达，该 CNN 的输入为之前时刻的所有单词，进而可以抓住对生成描述很重要的历史信息。其中总体架构如下图所示：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

该模型主要由四部分组成，用于图像特征提取的 CNN_I，用于自然语言建模的 CNN_L，用于结合 CNN_I 和 CNN_L 信息的多模态层 M，和一个用于单词序列预测的递归神经网络。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

总体过程如下：首先利用 CNN_I 提取图像特征，然后 CNN_L 利用之前时刻生成的单词对当前的单词信息进行表达，然后通过多模态层结合图像和单词信息，最后将融合的信息作为递归神经网络的输入来预测一下时刻的单词．该文与之前通过 one-hot 向量，然后经过词嵌入提取词向量的表达方法不同，利用了 CNN 网络来表达单词信息，进而能够很好的抓住过去的历史信息，用于指导当前时刻单词的生成。

来源：paperweekly

weixin_34376986

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
每周一起读 | 多模态专题阅读小组

从本周起，PaperWeekly 的多模态小组将开始发起「每周一起读」活动，我们将每周选定一篇优质文章，并提供可撰写读书笔记和在线协同讨论的阅读工具。如果你也希望和我们一起培养良好的阅读习惯，在积极活跃的讨论氛围中增长姿势，就请留意下方的招募信息吧：）多模态小组招募本期「每周一起读」，我们将一起精读下文并发起协同交流。参与者需具备多模态（Ima...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。