Neurons字幕组 | 2分钟带你看懂李飞飞论文：神经网络是怎样给一幅图增加文字描述，实现“看图说话”的？（附论文下载）

最新推荐文章于 2021-06-23 17:26:58 发布

大数据文摘

最新推荐文章于 2021-06-23 17:26:58 发布

阅读量3.2k

点赞数

本文链接：https://blog.csdn.net/dzJx2EOtaA24Adr/article/details/78149750

版权

本文介绍了如何结合卷积神经网络CNN与循环神经网络RNN，让AI通过图像识别输出相应的文字描述。通过李飞飞与Andrej Karpathy的论文，深入理解AI的图像理解和语言生成能力。

摘要由CSDN通过智能技术生成

Neurons字幕组出品

翻译 | 智博校对 | 龙牧雪

时间轴 | 虫2 后期 | Halo

项目管理 | 大力

Neurons字幕组

第四期作品震撼来袭！

Neurons字幕组源自英文单词Neuron，一个个独立的神经元，汇聚千万，成就了四通八达，传递最in最酷炫信息的神经网络。

来吧，和Neurons一起，玩点不一样的AI！

还记得吗？9月26日GTC 2017北京场的舞台上，英伟达创始人黄仁勋展示了用英伟达GPU的识别器进行图像推理，可以在一秒钟识别560张图像▼

当你还在震惊AI识别图像的速度（当然还有对于花卉知识的储备量）时，我们今天要说的，则是AI识别图像的深度。神经网络不仅仅可以做到图像分类，还可以“看图说人话”！

想要一探究竟嘛？今天我们将用一个2分钟小视频，为大家介绍人工智能怎样结合卷积神经网络CNN与循环神经网络RNN，识别图像并输出一句完整的描绘语句！

在视频中出镜的论文是李飞飞的博士Andrej Karpathy大神与李飞飞合著的经典论文Deep Visual-Semantic Alignments for Generating Image Descriptions。

关注大数据文摘公众号，并在后台回复“神经元”，可直接下载本期论文。

请在WiFi下观看小视频，暂时无法观看的读者可以先收藏，或者下拉直接查看文字版要点，土豪请随意~

class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7647058823529411" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=t0556hpd76w&width=670&height=376.875&auto=0" style="display: block; width: 670px !important; height: 376.875px !important;" width="670" height="376.875" data-vh="376.875" data-vw="670" src="http://v.qq.com/iframe/player.html?vid=t0556hpd76w&width=670&height=376.875&auto=0"/>
神经网络是怎么看图说话的？

神经网络的一个分支——大名鼎鼎的卷积神经网络CNN由于适合人类的视觉机制，从而更加适合处理和分类图像。

在Karpathy开发的这个页面，你可以实时看到卷积神经网络的训练结果：http://cs.stanford.edu/people/karpathy/convnetjs/demo/cifar10.html

最低0.47元/天解锁文章

大数据文摘

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫