Keras深度学习实战（38）——图像字幕生成

盼小辉丶

已于 2024-06-06 15:43:44 修改

阅读量4.7k

点赞数 76

分类专栏： Keras深度学习从入门到项目实战文章标签：深度学习 keras 神经网络

于 2022-11-27 07:30:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LOVEmy134611/article/details/126774850

版权

Keras深度学习从入门到项目实战专栏收录该内容

60 篇文章 494 订阅 ¥29.90 ¥99.00

订阅专栏

Keras深度学习实战（38）——图像字幕生成

0. 前言

图像和文本是当今两种主要的信息载体，其中图像具有生动形象的特点，而文本概括性强，能够以简练的形式传递信息。图像字幕生成旨在让计算机自动地使用文本对给定的图像加以描述，在图像检索、人机对话等应用中被广泛使用。
当前，网络中包含了数以十亿计的图片，为我们提供更加丰富娱乐和信息。但是，有视觉障碍的人或互联网速度较慢而无法加载图像时，则无法访问大部分视觉信息，手动添加的图像说明提供了一种更易于访问的方式。然而，现有的人工管理的图像说明字段仅涵盖少数图像，虽然自动生成图像字幕可以帮助解决这个问题，但获取准确的图像字幕是一项具有挑战性的任务。

1. 模型与数据集分析

我们已经学习了如何结合使用卷积神经网络 (Convolutional Neural Networks, CNN)，循环神经网络 (Recurrent Neural Network, RNN) 和 CTC 损失转录手写文本图片。在本节中，我们将学习如何融合 CNN 和 RNN 体系结构为给定图片生成字幕信息。

1.1 数据集分析

本节所用数据集称为 Conceptual Captions，由大约 330

了解本专栏

关注

76
点赞
踩
82

收藏

觉得还不错? 一键收藏
打赏
97
评论
Keras深度学习实战（38）——图像字幕生成

随着大规模数据集的出现，深度学习因其出色的计算能力在很多传统的计算机视觉任务上取得了巨大的成功，尤其是图像识别领域的图像字幕生成任务。本文利用深度学习技术设计出能够连接图像与自然语言的模型，从而实现图像字幕生成。本文设计的模型主要包含两个部分，一个是图像特征提取部分，另一个是语言建模与生成部分。同时，为了提高图像字幕生成模型的性能，我们使用束搜索对模型进行改进。
复制链接

扫一扫

专栏目录

评论 97

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

盼小辉丶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。