【深度学习】:实验6答案，图像自然语言描述生成（让计算机“看图说话”）（超详细版本）

X.AI666

已于 2024-02-10 13:47:52 修改

阅读量1.1k

点赞数 29

分类专栏：深度学习文章标签：人工智能深度学习机器学习

于 2024-02-09 10:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chen695969/article/details/136055056

版权

本文详细介绍了使用ResNet-101作为编码器、RNN解码器结合注意力机制的图像自然语言描述生成模型。通过四种训练和测试（Train1-Train4）的对比，选择BLEU4评分最高的模型进行预测，最终成功预测了2张图片。

摘要由CSDN通过智能技术生成

代码和报告均为本人自己实现（实验满分），只展示主要任务实验结果，如果需要详细的实验报告或者代码可以私聊博主，接实验技术指导1对1

实验要求布置请看http://t.csdnimg.cn/6vI2P

Model 说明

编码器（ Encoder ）和带有循环神经网络（ RNN ）的解码器（ DecoderWithRNN ）。

以下是对这两部分的实现原理进行说明：

1，编码器（Encoder，使用 ResNet-101）：

编码器接受输入图像并提取图像的特征。

它使用一个在 ImageNet 数据集上预训练的 ResNet-101 模型，并移除了最后的线性层和池化层。

编码器的输出是一个特征向量的空间网格，维度为 (batch_size,2048,encoded_image_size, encoded_image_size)。

2，带有 RNN 的解码器（Decoder）：

解码器用于为输入图像生成标注文本。它由一个基于 LSTM 的循环神经网络（ RNN ）组成。解码器的输入是来自编码器的图像特征。解码器逐步、逐词地生成标注文本。它使用嵌入层将词索引转换为密集向量。解码器的工作流程如下：

- 首先，对输入的标注文本进行嵌入操作，将词索引转换为词向量，维度为

(batch_size, max_caption_length, embed_dim) 。

- 解码长度是每个标注文本的实际长度减去 1 ，因为在生成标注时不需要预测标注的结束符。

- 模型创建一个用于存储词预测分数的张量，其维度为

(batch_size,max_decode_length, vocab_size)。

- 初始化 LSTM 的隐藏状态，并将图像特征经过线性变换初始化成 LSTM 的输入。然后，模型通过迭代时间步来生成标注文本中的每个词。

- 在每个时间步，模型使用强制学习来生成下一个词的预测分数。

- 预测分数经过线性层和丢弃层后，得到每个词的概率分布。

最低0.47元/天解锁文章

关注

29
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
1
评论
【深度学习】:实验6答案，图像自然语言描述生成（让计算机“看图说话”）（超详细版本）

本次案例将使用深度学习技术来完成图像自然语言描述生成任务，输入一张图片，模型会给出关于图片内容的语言描述。本案例使用 coco2014 数据集 [1] ，包含 82,783 张训练图片， 40,504 张验证图片， 40,775 张测试图片。案例使用 AndrejKarpathy[2] 提供的数据集划分方式和图片标注信息，案例已提供数据处理的脚本，只需下载数据集和划分方式即可。图像自然语言描述生成任务一般采用 Encoder-Decoder 的网络结构， Encoder 采用 CNN 结构
复制链接

扫一扫

专栏目录

X.AI666 CSDN认证博客专家 CSDN认证企业博客

码龄3年

人工智能领域新星创作者

105: 原创

2万+: 周排名

9209: 总排名

14万+: 访问

: 等级

4103: 积分

3457: 粉丝

2992: 获赞

39: 评论

2174: 收藏

私信

关注

热门文章

分类专栏

最新评论

【解决（几乎）任何机器学习问题】：处理分类变量篇（上篇）
m0_62576957: 请问大佬，如果目标变量（Y）是一个有七八类分类的变量，这个时候采用什么编码呀？标签吗？
【解决（几乎）任何机器学习问题】：超参数优化篇（超详细）
2301_80749414: 请问如何确定一些参数空间的大致范围
【解决（几乎）任何机器学习问题】：处理分类变量篇（上篇）
X.AI666: 处理地址这样的名义变量时，可以选择以下几种编码方式：1. 独热编码（One-Hot Encoding），将每个类别转换为一个二进制列，但高维度会增加计算复杂度；2. 标签编码（Label Encoding），为每个类别分配一个整数值，但可能引入假序关系；3. 目标编码（Target Encoding），使用目标变量的统计信息进行编码；4. 频率编码（Frequency Encoding），将类别替换为其出现的频率；5. 哈希编码（Hashing Encoding），使用哈希函数将类别映射到固定数量的列，适合高维数据。可以根据具体数据和任务需求选择合适的编码方式。
【解决（几乎）任何机器学习问题】：处理分类变量篇（上篇）
m0_62576957: 请问大佬，如果我要对数据进行预处理，给数据重新编码，但是这个编码的列表示的是地址（名义变量），且有上百个分类，我该采取什么样的编码方式呀[哭惹R]
【机器学习】实验4，基于K-近邻的车牌号识别（完整代码实现＋报告）
2401_85447314: 博主大大求数据集

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

X.AI666 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。