【深度学习】:实验6答案,图像自然语言描述生成(让计算机“看图说话”)(超详细版本)

本文详细介绍了使用ResNet-101作为编码器、RNN解码器结合注意力机制的图像自然语言描述生成模型。通过四种训练和测试(Train1-Train4)的对比,选择BLEU4评分最高的模型进行预测,最终成功预测了2张图片。
摘要由CSDN通过智能技术生成

代码和报告均为本人自己实现(实验满分),只展示主要任务实验结果,如果需要详细的实验报告或者代码可以私聊博主,接实验技术指导1对1

实验要求布置请看http://t.csdnimg.cn/6vI2P

Model 说明

编码器( Encoder )和带有循环神经网络( RNN )的解码器( DecoderWithRNN )。
以下是对这两部分的实现原理进行说明:

1,编码器(Encoder,使用 ResNet-101):

编码器接受输入图像并提取图像的特征。
它使用一个在 ImageNet 数据集上预训练的 ResNet-101 模型,并移除了最后的线性层和池化层。
编 码 器 的 输 出 是 一 个 特 征 向 量 的 空 间 网 格 , 维 度 为 (batch_size,2048,encoded_image_size, encoded_image_size)。

2,带有 RNN 的解码器(Decoder):

解码器用于为输入图像生成标注文本。它由一个基于 LSTM 的循环神经网络( RNN )组成。解码器的输入是来自编码器的图像特征。解码器逐步、逐词地生成标注文本。它使用嵌入层将词索引转换为密集向量。解码器的工作流程如下:
- 首先,对输入的标注文本进行嵌入操作,将词索引转换为词向量,维度为
(batch_size, max_caption_length, embed_dim)
- 解码长度是每个标注文本的实际长度减去 1 ,因为在生成标注时不需要预测标注的结束符。
- 模型创建一个用于存储词预测分数的张量,其维度为
(batch_size,max_decode_length, vocab_size)。
- 初始化 LSTM 的隐藏状态,并将图像特征经过线性变换初始化成 LSTM 的输入。然后,模型通过迭代时间步来生成标注文本中的每个词。
- 在每个时间步,模型使用强制学习来生成下一个词的预测分数。
- 预测分数经过线性层和丢弃层后,得到每个词的概率分布。
  • 29
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

X.AI666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值