人脸视频数据集汇总

视觉工坊_

于 2025-05-20 14:22:49 发布

阅读量1k

点赞数 17

文章标签：计算机视觉视觉检测深度学习人工智能

本文链接：https://blog.csdn.net/sinat_32252745/article/details/148086672

版权

一、人脸视频生成 / 表情迁移 / 唇形同步

MEAD

Paper: MEAD: A Large-Scale Audio-Visual Dataset for Emotional Talking-Face Generation

简介：MEAD（Multi-view Emotional Audio-visual Dataset）是一个大规模的多情绪音视频数据集，涵盖 60 名说话人、8 种基本情绪（包括中性、高兴、愤怒、厌恶、恐惧、悲伤、惊讶、蔑视），每种情绪又包含多个强度等级。所有视频均为正面拍摄并具备统一的背景和灯光条件，适用于情感驱动的说话人生成、唇形合成、表情迁移、跨情绪语音驱动等研究。

下载：https://github.com/uniBruce/Mead

HDTF (High-Definition Talking Face)

Paper: Flow-guided One-shot Talking Face Generation with a High-resolution Audio-visual Dataset

简介：HDTF 提供高分辨率、清晰人脸的视频数据，专为说话人驱动的面部动画任务设计，如视频合成、唇形同步、表情迁移等，具有更真实的口型、头部运动和面部动态。

下载：https://github.com/MRzzm/HDTF

CelebV-HQ

Paper: CelebV-HQ: A Large-Scale Video-Based High-Quality Talking Head Dataset

简介：高质量人脸视频数据集，采集于名人采访视频，具有高清分辨率和良好的表情变化，适用于视频生成、表情迁移、唇形合成等任务。

下载：https://github.com/CelebV-HQ/CelebV-HQ

FaceVid-1K

Paper: FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset

简介：该数据集用于人脸视频生成，支持文本生成视频（text-to-video）和图像生成视频（image-to-video）等任务。作者建立了性能基准，并与在相关公开数据集上训练的模型进行了对比，以验证其优越性。。

下载：https://huggingface.co/datasets/jjuik2014/FaceVid-1K-Part

二、人脸识别 / 验证 / 表征学习

VoxCeleb

Paper: VoxCeleb: Large-scale speaker verification in the wild

简介：VoxCeleb 是一个大规模的说话人识别数据集，收集自 YouTube 上的采访视频，包含同步的人脸和语音信息，适用于说话人识别、人脸识别、音视频对齐等多模态任务。

下载：http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

YouTube Faces Dataset (YTF)

Paper: YouTube Faces Database: A Database for Studying Face Recognition in Unconstrained Videos

简介：YTF 包含 1595 个名人的视频片段，提供对同一人的不同视频样本，常用于视频级别的人脸识别研究，是衡量在“非配合”环境中识别性能的标准数据集之一。

下载：https://www.cs.tau.ac.il/~wolf/ytfaces/

三、人脸伪造检测 / Deepfake 识别

DFDC (Deepfake Detection Challenge Dataset)

Paper: The Deepfake Detection Challenge (DFDC) Dataset

简介：由 Facebook AI 组织的深度伪造检测挑战数据集，包含超过 10 万个深伪视频，涵盖多种伪造方法和拍摄环境，广泛用于训练和评估深度伪造检测模型。

下载：https://ai.facebook.com/datasets/dfdc/

FaceForensics++

Paper: FaceForensics++: Learning to Detect Manipulated Facial Images

简介：一个用于检测人脸伪造（如DeepFake、Face2Face等）的数据集，包含多种伪造方法下的视频数据，同时保留了原始视频帧和操控后的帧，适用于伪造检测、表情编辑等任务。

下载：https://github.com/ondyari/FaceForensics

VFHQ

Paper: VFHQ: A Large-Scale High-Quality Video Dataset for Video Face Forgery Detection

简介：高清自然人脸行为视频数据集，覆盖自然眨眼、说话、头部动作等，用于伪造检测、人脸生成与多任务建模。

下载：https://liangbinxie.github.io/projects/vfhq/

四、唇读 / 音视频同步 / 声纹建模

AVSpeech

Paper: Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation

简介：AVSpeech 是一个大型音视频语料库，包含 4700 小时以上的演讲视频片段，画面中单一清晰人脸在说话，广泛用于音视频分离、说话人同步、唇形驱动生成等研究。

下载：https://looking-to-listen.github.io/avspeech/

LRW

Paper: Lip Reading in the Wild

简介：超过 50 万个唇读视频片段，词汇覆盖广泛，拍摄自 BBC 节目，适用于唇形识别与音视频联合建模。

下载：https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrw1.html

五、人脸关键点跟踪 / 表情估计

300-VW (300 Videos in the Wild)

Paper: 300-VW: A 300 Videos in the Wild Facial Landmark Tracking Dataset

简介：该数据集包含300个现实世界中拍摄的视频，提供详细的人脸关键点标注，涵盖各种照明、姿态和遮挡条件，常用于人脸跟踪和关键点检测研究。

下载：http://ibug.doc.ic.ac.uk/resources/300-VW/

UvA-NEMO Smile Database

Paper: Are You Really Smiling at Me? Spontaneous versus Posed Enjoyment Smiles

简介：UvA-NEMO Smile Database 是一个大规模微笑数据集，包含来自 400 名受试者的 1240 段微笑视频（其中 597 段为自然微笑，643 段为虚假微笑）。受试者的年龄范围从 8 岁到 76 岁不等。视频为彩色 RGB，分辨率为 1920×1080 像素，帧率为每秒 50 帧，并在受控光照条件下拍摄。为了进一步进行光照和颜色归一化，视频背景中还包含了一个色彩校准板。

下载：http://www.uva-nemo.org/obtain.html