多模态参考资料汇总

friedrichor

已于 2022-08-09 00:51:12 修改

阅读量258

点赞数

分类专栏：多模态文章标签：计算机视觉人工智能自然语言处理

于 2022-08-03 03:00:24 首次发布

本文链接：https://blog.csdn.net/Friedrichor/article/details/126125926

版权

多模态专栏收录该内容

13 篇文章 20 订阅

订阅专栏

介绍

数据集

The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database
数据库范围：情绪表达的识别与分析、人类二元互动分析、情绪敏感的人机界面和虚拟代理的设计
信息：关键词：情感、多模式、表演、二元；语言：英语；10名演员：5男5女；情绪激发技巧：即兴创作和脚本
可用的方式：动作捕捉人脸信息；演讲；视频；头部运动和头部角度信息；对话转录；词级、音节级和音素级对齐
MS COCO (Microsoft Common Objects in Context)
MS COCO 数据集的第一个版本于 2014 年发布。它包含 164K 图像，拆分为训练 (83K)、验证 (41K) 和测试 (41K) 集。2015 年发布了额外的 81K 图像测试集，包括以前的所有测试图像和 40K 新图像。
目标检测：具有 80 个对象类别的边界框和每个实例的分割掩码，
字幕：图像的自然语言描述（参见 MS COCO 字幕），
关键点检测：包含超过 200,000 张图像和 250,000 个用关键点标记的人员实例（17 个可能的关键点，例如左眼、鼻子、右臀部、右脚踝），
填充图像分割：具有 91 个填充类别的每像素分割掩码，例如草、墙、天空，
全景：全场景分割，有 80 个事物类别（例如人、自行车、大象）和 91 个事物类别的子集（草、天空、道路），
dense pose：超过 39,000 张图像和 56,000 个使用 DensePose 注释标记的人员实例——每个标记的人员都使用实例 ID 以及属于该人体的图像像素与模板 3D 模型之间的映射进行注释。注释仅对训练和验证图像公开可用。