Image Caption 2021最新整理：数据集文献代码

最新推荐文章于 2024-07-12 19:06:42 发布

2401_84615085

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量363

点赞数 5

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/2401_84615085/article/details/138908417

版权

程序员专栏收录该内容

72 篇文章 0 订阅

订阅专栏

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

+ 不要描述在未来或过去可能发生的事情。
+ 不描述一个人可能会说什么。
+ 不提供专有的人名。
+ 这些句子应该至少包含8个单词。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/6c6fa88cc94041a2991b21ac4653045b.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA6Jm-57Gz5bCP6aaE6aWo,size_16,color_FFFFFF,t_70,g_se,x_16)

SBU Captions

NIPS 2011 | Im2Text: Describing Images Using 1 Million Captioned Photographs
[website]
[paper]

SBU Captions数据集最初将图像字幕作为一个检索任务，包含 100 万个图片网址 + 标题对。
在这里插入图片描述

Conceptual Captions (CC) dataset

ACL 2018 | Google Research
[website]
[paper]
[github]

Conceptual Captions (CC) dataset是一个包含（图像URL、字幕）对的数据集，用于机器学习图像字幕系统的训练和评估。数据集有约330万张图像(CC3M)和1200万张图像(CC12M)两个版本，并通过一个简单的过滤程序从网络自动收集弱相关描述。

与 MS-COCO 图像相比，Conceptual Captions数据集的图像及其原始描述来自网络，因此代表了更广泛的风格。

但是Conceptual Captions 的图像并不总是可用的，因为数据集提供的是图片URL。

Split	Examples	Uniqe Tokens
Train	3,318,333	51,201
Valid	15,840	10,900
Test (Hidden)	12,559	9,645

在这里插入图片描述

TextCaps

ECCV 2020 | Facebook AI Research
[website]
[paper]

这个数据集的特点在于使用包含文字内容的图片。

TextCaps 要求模型阅读和推理图像中的文本以生成有关它们的说明。具体来说，模型需要根据图像中存在的文本形式对其进行推理，并结合图像中的视觉内容以生成图像描述。

28,408 张图片，来自 Open Images 数据集
142,040 条captions
平均每张图片 5 个captions

在这里插入图片描述

VizWiz-Captions

ECCV 2020 | Captioning Images Taken by People Who Are Blind.
[paper]
[website]

这个数据集中的图像是由视力受损的人使用手机拍摄的，图像质量不高，涉及各种各样的日常活动，其中大多数需要阅读一些文本。数据集旨在让更多人了解盲人的需求，并开发辅助技术，解决盲人日常生活中的视觉挑战，回答盲人的视觉问题。

数据集引入了视力受损的人采集的39,181张真实图像用例，每张图像都配有5个captions。

VizWiz-Captions 数据集包括：

训练集：23,431 张图像，117,155 个captions
验证集：7,750 张图像，38,750 个captions
测试集：8,000 张图像，40,000 个captions

在这里插入图片描述

Localized Narratives

ECCV 2020 | Connecting Vision and Language with Localized Narratives
[website]
[paper]
[code]

Localized Narratives提供了一种连接视觉和语言的多模态图像注释的新形式。这个数据集是通过记录人们自由地叙述他们在图片中看到的内容而收集起来的。

注释者被要求用他们的声音描述图像，同时将鼠标悬停在他们描述的区域上。由于语音和鼠标指针是同步的，我们可以定位描述中的每个单词。这种密集的视觉基础采用每个单词的鼠标轨迹段的形式。

Localized Narratives为每个单词都提供了基于其跟踪片段所表示的图像中的一个特定区域，包括名词、动词、形容词、介词等。
在这里插入图片描述
Localized Narratives 注释了 849,000张图像：包括整个 COCO、Flickr30k 和 ADE20K 数据集，以及 671,000 的Open Images图像。

Localized Narratives支持的任务不局限于image caption，还可以支撑其他多模态任务：

在这里插入图片描述

Nocaps

ICCV 2019 | nocaps: novel object captioning at scale
[website]
[paper]
[github]

nocaps旨在评估在没有对应的训练数据的情况下，模型能否准确描述测试图像中新出现类别的物体。

为了让模型能够学习更多种类的视觉概念，最好是从较少的监督中学习。所以，nocaps利用一些替代数据源（如目标检测），使模型能够描述在训练集的标题语料中不存在的对象。这些具有目标检测标注、但没有标题语料的对象，就被称为新对象（novel object），描述那些包含新对象的图像就被称为novel object captioning。

对于人类来说，在学习了一个新物体的类别后，我们可以立即描述它的属性和关系，但是当前的算法模型无法描述未在语料库中出现过的目标。nocaps的主要目标是将“如何识别物体”与“如何谈论物体”分离出来。利用COCO的图像标题数据来学习生成语法上正确的标题，同时利用大量的开放图像检测数据集来学习更多的视觉概念。

训练集由 COCO 图像-标题对（118,000张图像，80个目标类别）、Open Images V4 目标检测训练集（1,700,000张带有bbox的图像，600个目标类别）组成。
验证集包含4,500张图像，平均每张图片10个captions，源自 Open Images V4验证集
测试集包含10,600张图像，平均每张图片10个captions ，源自 Open Images V4测试集
由于 Open Images 包含的类比 COCO 多得多，因此在测试图像中看到的近 400 个目标类没有对应的训练caption（所以这个数据集取名为nocaps）。
为了提供更细粒度的分析，nocaps的评估分为域内、近域和域外三个子集，域描述了对象与COCO中类别的相似性。

小结

当前caption任务的数据集正在向多种领域进行扩展，更多的开放式图像、目标类别，较少的监督信息，对image caption任务提出了更高要求。

在具体实际应用中，既需要特定领域的语料库，也需要模型具备更好的可解释性。

From Show to Tell: A Survey on Image Captioning ↩︎ ↩︎
https://arxiv.org/abs/1912.03098v2 ↩︎

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

2401_84615085

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Image Caption 2021最新整理：数据集文献代码

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取。
复制链接

扫一扫