图文多模态公开数据集归纳(图文情感分类、图文检索)|有中英文文本、含下载地址

我最近在研究图文多模态的公开数据集,本文总结了图文多模态常用的公开数据集。这里没有记录小数据集(不到2千张图级别的,有较高引用的有 IAPS 和 GAPED,微博)和 与业务相关性低的(艺术场景,如 ArtPhoto)。

任务数据集论文中文or 英文
图文情感分类YelpVistaNet英文
图文情感分类TumblrFine-grained Video-Text Retrieval with Hierarchical Graph Reasoning英文
图片情感分类FlickrLDL, TwitterLDLLearning visual sentiment distributions via augmented conditional probability neural network英文
图片情感分类emotion6Building a Large Scale Dataset for Image Emotion Recognition: The Fine Print and The Benchmark英文
图片情感分类Multi-ZOLMulti-Interactive Memory Network for Aspect Based Multimodal Sentiment Analysis中文
电商图文检索MUGEWukong中文
图文检索Flickr8k-CN、Flickr3k-CN中文
图文检索COCO-CN中文
图文检索AICICC-CN中文

1. Yelp数据集

  • 数据内容:来自Yelp.com评论网站,收集的是北美8个大城市关于餐厅和食品的评论。
  • 数据集规模:一共有44305条评论,244569张图片,平均每条评论有13个句子,230个单词。一文3图 (每张图片是与商户 id 关联的)
  • 数据集的情感标注:每条评论的情感倾向对应 1,2,3,4,5五个分值。不是直接来自文本的分析,而是写评论的用户打分,认为打分高的用户正向
  • 下载地址:收集不易,有用点个赞叭~
  • 如何使用,开源地址:vistanet

2. Tumblr 数据集

  • 数据内容:从 Tumblr app 收集来的多模态情绪 gif 数据集。Tumblr的用户在上面发布的多媒体内容通常包含:图片、文本和标签。数据集是根据选定的十五种情绪搜索对应的情绪标签的推文,并且只选择其中既有文本又有图片的部分,然后进行了数据处理,删除了那些文本中原本就包含对应情绪词的内容,以及那些主要不是英文为主的推文。
  • 数据集规模:79,451 训练, 10,651 验证,11,310 测试。每个 gif 有 1-3句文字描述。
  • 数据集的情感标注:包含高兴,悲伤,厌恶在内的十五种情绪描述。
  • 下载地址:收集不易,有用点个赞吧~^ ^
  • 使用,开源地址:Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

3. FlickrLDL, TwitterLDL 数据集

4. Multi-ZOL 数据集

  • 数据内容:主要是zol 中关村在线网站的电商图片,是论文作者自己爬取的手机类目图片。中文文本,存在一文多图。
  • 数据规模:28K 图文数据
  • 数据的情感标注:0 到 10 整数情感打分
  • 下载地址、开源地址:MIMN

5. MUGE 数据集

  • 数据内容:多模态理解和生成评估 (MUGE) 是一组跨模态理解和生成任务以及排行榜,供研究人员训练和评估其多模态系统。到目前为止,MUGE 包括: 多模态理解和生成任务的基准,包括电子商务图像字幕、文本到图像生成和多模态图文检索任务,供研究人员跟踪其模型性能的公共排行榜。
  • 数据规模:MUGE是指三个任务对应的三个数据集,分别是ECommerce-IC (E-commerce Image Caption Dataset),ECommerce-T2I (E-commerce Text to Image Dataset) 和 Multimodal Retrieval Dataset
  • 下载地址:我看看是谁白嫖不点赞 口亨~生气气
  • 32
    点赞
  • 75
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值