（七十五）：Bangla Image Caption Generation through CNN-Transformer based Encoder-Decoder Network

Laura_Wangzx

已于 2023-06-20 19:52:35 修改

阅读量342

点赞数 1

分类专栏： “情感分析”研究方向论文-精读总结文章标签： transformer cnn 深度学习

于 2021-12-20 19:51:45 首次发布

本文链接：https://blog.csdn.net/qq_37486501/article/details/121991864

版权

“情感分析”研究方向论文-精读总结专栏收录该内容

88 篇文章 197 订阅 ¥19.90 ¥99.00

订阅专栏

本文提出了一种使用预训练ResNet-101的基于Transformer的架构，用于生成孟加拉语图像标题。实验在BanglaLekhaImageCaptions数据集上进行，该模型在BLEU-1、BLEU-2、BLEU-3和METEOR指标上取得优异成绩，优于现有方法。模型结合了图像特征和Transformer的注意机制，提高了字幕的准确性和多样性。

摘要由CSDN通过智能技术生成

（七十五）：Bangla Image Caption Generation through CNN-Transformer based Encoder-Decoder Network

Abstract
1. Introduction
2. Related Work
3. Method
4 Experiments
- 4.1 Datasets
- 4.2 Data Preprocessing
5 Evaluation
- 5.1 Quantitative Analysis
- 5.2 Qualitative Analysis
6. Conclusion and Future Work

出处：CoRR abs/2110.12442 (2021)
代码：https://github.com/pioneerAlpha/BanglaImageCaptioning
题目：通过基于CNN-Transformer的编码器-解码器网络生成孟加拉图像标题
主要内容：感觉文章很水，利用图像描述的数据集不同，翻译为Bangla孟加拉语言，模型还是Transformer基础架构。（看完有些浪费时间的感觉，不过这篇文章有代码可以看一下。）

Abstract

自动图像标注是一种持续不断的工作，它以自然语言和上下文为图像创建语法和验证文本描述的准确性。现有的孟加拉语图像标注(BIC)研究中使用的编码器-解码器结构利用抽象图像特征向量作为编码器的输入。
我们提出了一种新颖的基于变压器的架构，该架构具有注意机制，使用预训练的ResNet-101模型图像编码器进行图像特征提取。
实验表明，我们技术中的局域语言解码器捕获标题中的细粒度信息，然后与图像特征配对，在BanglaLekhaImageCaptions数据集上生成准确和多样化的标题。我们的方法优于所有现有的孟加拉语图像字幕工作，并设置了一个新的基准，在BLEU-1上得分0.694，在BLEU-2上得分0.630，在BLEU-3上得分0.582，在METEOR上得分0.337。

1. Introduction

描述的目的是在文本中描述图像的实质。许多字幕算法现在遵循编码器-解码器的架构，解码器基础架构可以使用通过编码网络的注意方法检索到的函数来预测单词。

了解本专栏

Laura_Wangzx

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
（七十五）：Bangla Image Caption Generation through CNN-Transformer based Encoder-Decoder Network

（七十五）：Bangla Image Caption Generation through CNN-Transformer based Encoder-Decoder NetworkAbstract1. Introduction2. Related Work3. Method3.1 Encoder特征提取位置编码多头注意Q和K的点积降低注意力得分将Softmax输出与值向量相乘残差连接(residual connections)、层归一化(LayerNormalization)和前馈网络(feed forw
复制链接

扫一扫