最后
不知道你们用的什么环境,我一般都是用的Python3.6环境和pycharm解释器,没有软件,或者没有资料,没人解答问题,都可以免费领取(包括今天的代码),过几天我还会做个视频教程出来,有需要也可以领取~
给大家准备的学习资料包括但不限于:
Python 环境、pycharm编辑器/永久激活/翻译插件
python 零基础视频教程
Python 界面开发实战教程
Python 爬虫实战教程
Python 数据分析实战教程
python 游戏开发实战教程
Python 电子书100本
Python 学习路线规划
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
目前比较常用的数据集是COCO Captions、Conceptual Captions (CC),包含人、动物和普通日常物品之间的复杂场景的图像。
COCO Captions、Conceptual Captions (CC)、VizWiz、TextCaps、Fashion Captioning、CUB-200等数据集的标注样例如下图(a)所示,数据集中语料库的高频词云如下图(b)所示1,可以反映数据集中主要目标类别的分布。
标注方式
COCO Captions、Conceptual Captions (CC)数据集中对图像描述的标注,是基于整幅图像的。Flickr30K Entities标注了Flickr30K中caption里提到的名词,并标注了对应的bbox。Visual Genome数据集提供了描述图像中区域的短语,并使用这些区域来生成一个场景图(scene graph)。Localized Narratives为每个单词都提供了基于其跟踪片段所表示的图像中的一个特定区域,包括名词、动词、形容词、介词等。2
Microsoft COCO Captions
Microsoft COCO Captions: Data Collection and Evaluation Server
[website]
[paper]
[github] 提供评估方法
COCO Captions更关注“描述场景的所有重要部分”,而不描述不重要的细节,这使得COCO Captions对于关注的对象更突出。
- 164,062张图像,包括:
- 82,783个训练图像
- 40,504个验证图像
- 40,775个测试图像
- 995,684个captions,平均每张图片6个captions
- 标注内容:
- 描述这个场景的所有重要部分;
- 不描述不重要的细节。
- 不要描述在未来或过去可能发生的事情。
- 不描述一个人可能会说什么。
- 不提供专有的人名。
- 这些句子应该至少包含8个单词。
SBU Captions
NIPS 2011 | Im2Text: Describing Images Using 1 Million Captioned Photographs
[website]
[paper]
SBU Captions数据集最初将图像字幕作为一个检索任务,包含 100 万个图片网址 + 标题对。
Conceptual Captions (CC) dataset
Conceptual Captions (CC) dataset是一个包含(图像URL、字幕)对的数据集,用于机器学习图像字幕系统的训练和评估。数据集有约330万张图像(CC3M
)和1200万张图像(CC12M
)两个版本,并通过一个简单的过滤程序从网络自动收集弱相关描述。
与 MS-COCO 图像相比,Conceptual Captions数据集的图像及其原始描述来自网络,因此代表了更广泛的风格。
但是Conceptual Captions 的图像并不总是可用的,因为数据集提供的是图片URL。
Split | Examples | Uniqe Tokens |
---|---|---|
Train | 3,318,333 | 51,201 |
Valid | 15,840 | 10,900 |
Test (Hidden) | 12,559 | 9,645 |
TextCaps
这个数据集的特点在于使用包含文字内容的图片。
TextCaps 要求模型阅读和推理图像中的文本以生成有关它们的说明。具体来说,模型需要根据图像中存在的文本形式对其进行推理,并结合图像中的视觉内容以生成图像描述。
- 28,408 张图片,来自 Open Images 数据集
- 142,040 条captions
- 平均每张图片 5 个captions
VizWiz-Captions
ECCV 2020 | Captioning Images Taken by People Who Are Blind.
[paper]
[website]
这个数据集中的图像是由视力受损的人使用手机拍摄的,图像质量不高,涉及各种各样的日常活动,其中大多数需要阅读一些文本。数据集旨在让更多人了解盲人的需求,并开发辅助技术,解决盲人日常生活中的视觉挑战,回答盲人的视觉问题。
数据集引入了视力受损的人采集的39,181张真实图像用例,每张图像都配有5个captions。
VizWiz-Captions 数据集包括:
- 训练集:23,431 张图像,117,155 个captions
- 验证集:7,750 张图像,38,750 个captions
- 测试集:8,000 张图像,40,000 个captions
Localized Narratives
ECCV 2020 | Connecting Vision and Language with Localized Narratives
[website]
[paper]
[code]
感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:
① 2000多本Python电子书(主流和经典的书籍应该都有了)
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!