Image Caption 2021最新整理:数据集 文献 代码(2)

最后

不知道你们用的什么环境,我一般都是用的Python3.6环境和pycharm解释器,没有软件,或者没有资料,没人解答问题,都可以免费领取(包括今天的代码),过几天我还会做个视频教程出来,有需要也可以领取~

给大家准备的学习资料包括但不限于:

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

+ 不描述不重要的细节。
+ 不要描述在未来或过去可能发生的事情。
+ 不描述一个人可能会说什么。
+ 不提供专有的人名。
+ 这些句子应该至少包含8个单词。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/6c6fa88cc94041a2991b21ac4653045b.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA6Jm-57Gz5bCP6aaE6aWo,size_16,color_FFFFFF,t_70,g_se,x_16)

SBU Captions

NIPS 2011 | Im2Text: Describing Images Using 1 Million Captioned Photographs
[website]
[paper]

SBU Captions数据集最初将图像字幕作为一个检索任务,包含 100 万个图片网址 + 标题对。
在这里插入图片描述


Conceptual Captions (CC) dataset

ACL 2018 | Google Research
[website]
[paper]
[github]

Conceptual Captions (CC) dataset是一个包含(图像URL、字幕)对的数据集,用于机器学习图像字幕系统的训练和评估。数据集有约330万张图像(CC3M)和1200万张图像(CC12M)两个版本,并通过一个简单的过滤程序从网络自动收集弱相关描述。

与 MS-COCO 图像相比,Conceptual Captions数据集的图像及其原始描述来自网络,因此代表了更广泛的风格

但是Conceptual Captions 的图像并不总是可用的,因为数据集提供的是图片URL。

SplitExamplesUniqe Tokens
Train3,318,33351,201
Valid15,84010,900
Test (Hidden)12,5599,645

在这里插入图片描述


TextCaps

ECCV 2020 | Facebook AI Research
[website]
[paper]

这个数据集的特点在于使用包含文字内容的图片

TextCaps 要求模型阅读和推理图像中的文本以生成有关它们的说明。具体来说,模型需要根据图像中存在的文本形式对其进行推理,并结合图像中的视觉内容以生成图像描述。

  • 28,408 张图片,来自 Open Images 数据集
  • 142,040 条captions
  • 平均每张图片 5 个captions

在这里插入图片描述


VizWiz-Captions

ECCV 2020 | Captioning Images Taken by People Who Are Blind.
[paper]
[website]

这个数据集中的图像是由视力受损的人使用手机拍摄的,图像质量不高,涉及各种各样的日常活动,其中大多数需要阅读一些文本。数据集旨在让更多人了解盲人的需求,并开发辅助技术,解决盲人日常生活中的视觉挑战,回答盲人的视觉问题。

数据集引入了视力受损的人采集的39,181张真实图像用例,每张图像都配有5个captions。

VizWiz-Captions 数据集包括:

  • 训练集:23,431 张图像,117,155 个captions
  • 验证集:7,750 张图像,38,750 个captions
  • 测试集:8,000 张图像,40,000 个captions

在这里插入图片描述


Localized Narratives

ECCV 2020 | Connecting Vision and Language with Localized Narratives
[website]
[paper]
[code]

Localized Narratives提供了一种连接视觉和语言的多模态图像注释的新形式。这个数据集是通过记录人们自由地叙述他们在图片中看到的内容而收集起来的。

注释者被要求用他们的声音描述图像,同时将鼠标悬停在他们描述的区域上。由于语音和鼠标指针是同步的,我们可以定位描述中的每个单词。这种密集的视觉基础采用每个单词的鼠标轨迹段的形式。

Localized Narratives为每个单词都提供了基于其跟踪片段所表示的图像中的一个特定区域,包括名词、动词、形容词、介词等。
在这里插入图片描述
Localized Narratives 注释了 849,000张图像:包括整个 COCO、Flickr30k 和 ADE20K 数据集,以及 671,000 的Open Images图像。

Localized Narratives支持的任务不局限于image caption,还可以支撑其他多模态任务:

在这里插入图片描述


Nocaps

ICCV 2019 | nocaps: novel object captioning at scale
[website]
[paper]
[github]

nocaps旨在评估在没有对应的训练数据的情况下,模型能否准确描述测试图像中新出现类别的物体。

为了让模型能够学习更多种类的视觉概念,最好是从较少的监督中学习。所以,nocaps利用一些替代数据源(如目标检测),使模型能够描述在训练集的标题语料中不存在的对象。这些具有目标检测标注、但没有标题语料的对象,就被称为新对象(novel object),描述那些包含新对象的图像就被称为novel object captioning

对于人类来说,在学习了一个新物体的类别后,我们可以立即描述它的属性和关系,但是当前的算法模型无法描述未在语料库中出现过的目标。nocaps的主要目标是将“如何识别物体”与“如何谈论物体”分离出来。利用COCO的图像标题数据来学习生成语法上正确的标题,同时利用大量的开放图像检测数据集来学习更多的视觉概念。

  • 训练集由 COCO 图像-标题对(118,000张图像,80个目标类别)、Open Images V4 目标检测训练集(1,700,000张带有bbox的图像,600个目标类别)组成。
  • 验证集包含4,500张图像,平均每张图片10个captions,源自 Open Images V4验证集
  • 测试集包含10,600张图像,平均每张图片10个captions ,源自 Open Images V4测试集
  • 由于 Open Images 包含的类比 COCO 多得多,因此在测试图像中看到的近 400 个目标类没有对应的训练caption(所以这个数据集取名为nocaps)。
  • 为了提供更细粒度的分析,nocaps的评估分为域内、近域和域外三个子集,域描述了对象与COCO中类别的相似性。
    在这里插入图片描述

小结

当前caption任务的数据集正在向多种领域进行扩展,更多的开放式图像、目标类别,较少的监督信息,对image caption任务提出了更高要求。

在具体实际应用中,既需要特定领域的语料库,也需要模型具备更好的可解释性。


  1. From Show to Tell: A Survey on Image Captioning ↩︎ ↩︎
  2. https://arxiv.org/abs/1912.03098v2 ↩︎

现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值