Image Captioning概述

最新推荐文章于 2024-01-21 11:22:34 发布

NeverMoreH

最新推荐文章于 2024-01-21 11:22:34 发布

阅读量2.9k

点赞数 6

分类专栏： vision&language # image captioning 文章标签： ImageCaptioning 概述 metrics

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms961516792/article/details/107516881

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

image captioning

3 篇文章 1 订阅

订阅专栏

目录

任务描述
应用领域
主要问题
主流框架
常用数据集
Metrics

Metrics的部分内容参考自知乎

任务描述

输入：图片 $I$
输出：由 $n$ 个单词组成的图片内容描述 $S=\{ s_1,...,s_n \}$

应用领域

图文互搜
（细粒度）图像检索
对视觉障碍者进行辅助

主要问题

dataset bias
已有方法：将cnn特征分解为object、attributes、relation、function等
参考文献：[1] ICCV 2019 Learning to Collocate Neural Modules for Image Captioning
long tail
long tail本身也算作dataset bias的一种，在很多task中普遍存在。单独列出来的原因是，有的方法专门针对long tail问题进行优化。
已有方法：按频率多阶段训练
参考文献：[1] CVPR 2020 Learning to Segment the Tail
数据集标注昂贵
已有方法：无监督
参考文献：[1] CVPR 2019 Unsupervised Image Captioning
[2] ICCV 2019 Unpaired Image Captioning via Scene Graph Alignments
模型的recall低、多样性低
已有方法：改进损失函数、可控的Captioning
参考文献：[1] CVPR 2020 Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
[2] CVPR 2020 Better Captioning with Sequence-Level Exploration
[3] CVPR 2019 Intention Oriented Image Captions with Guiding Objects
[4] CVPR 2019 Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions
[5] CVPR 2019 Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
[6] CVPR 2016 DenseCap: Fully Convolutional Localization Networks for Dense Captioning
生成的结果不够human-like
已有方法：使用贡献字典引入先验知识
参考文献：[1] CVPR 2019 Auto-Encoding Scene Graphs for Image Captioning
长序列建模问题
已有方法：探索单词之间的连贯性
参考文献：[1] CVPR 2019 Reflective Decoding Network for Image Captioning
提升grounding能力
已有方法：知识蒸馏+强化学习
参考文献：[1] CVPR 2019 More Grounded Image Captioning by Distilling Image-Text Matching Model
网络结构优化
已有方法：对self attention进行改进
参考文献：[1] CVPR 2020 Normalized and Geometry-Aware Self-Attention Network
for Image Captioning

主流框架

encoder + decoder结构，对图片的regions信息进行编码，建立不同objects之间的关系后，使用decoder解码，生成sentence。encoder部分常使用CNN，decoder部分为RNNs，后由于Transformer的兴起，RNN被替换为了SANs（Self Attention Networks）。

常用数据集

Flickr30k Entities
下载链接
 论文原文
MS-COCO Karpathy
下载链接
 论文原文

Metrics

BLEU-n（Bilingual Evaluation Understudy，双语评估辅助工具）：比较候选译文和参考译文里的 n-gram 的重合程度，重合程度越高就认为译文质量越高。把sentence划分成长度为n个单词的短语，统计它们在标准译文中的出现次数，除以划分总数。
(mBleu-4, best-k)：对于一个image，选择生成的最好的k个captions，对于每个caption，计算其与其他k-1个captions的BLEU-4值，再取平均。值越低，多样性越高。
METEOR（Metric for Evaluation of Translation with Explicit ORdering，显式排序的翻译评估指标）：计算生成结果和参考译文之间的准确率和召回率的调和平均。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation，面向召回率的摘要评估辅助工具）：大致分为四种：ROUGE-N，ROUGE-L，ROUGE-W，ROUGE-S。常用的是前两种（-N与-L）。ROUGE-N中的“N”指的是N-gram，其计算方式与BLEU类似，只是BLEU基于精确率，而ROUGE基于召回率。ROUGE-L中的“L”指的是Longest Common Subsequence，计算的是候选摘要与参考摘要的最长公共子序列长度，长度越长，得分越高，基于F值。
CIDEr（Consensus-based Image Description Evaluation，基于共识的图像描述评估）：把每个句子看成文档，然后计算其 TF-IDF 向量（注意向量的每个维度表示的是n-gram 而不一定是单词）的余弦夹角，据此得到候选句子和参考句子的相似度。
SPICE（Semantic Propositional Image Caption Evaluation，语义命题图像标题评估）：SPICE 使用基于图的语义表示来编码 caption 中的 objects, attributes 和 relationships。它先将待评价 caption 和参考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees，然后用基于规则的方法把 dependency tree 映射成 scene graphs。最后计算待评价的 caption 中 objects, attributes 和 relationships 的 F-score 值。

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
2
评论
Image Captioning概述

目录任务描述应用领域主要问题主流框架常用数据集Metrics本文部分内容参考自知乎任务描述输入：图片III输出：由 nnn个单词组成的图片内容描述S={S1,...Sn}S=\{ S_1,...S_n \}S={S1,...Sn}应用领域图文互搜（细粒度）图像检索对视觉障碍者进行辅助主要问题dataset bias已有方法：将cnn特征分解为object、attributes、relation、function等参考文献：[1] ICCV 2019 Learning
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。