note
- 总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox训练数据准备过程、ShareGPT4Video数据集等
- 在一篇综述中还总结了评估指标包括:峰值信噪比(PSNR)、结构相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 距离(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频距离(KVD)、帧一致性分数(FCS)
- 各家提出的开源数据后,为了证明自己有效,会在上面这些不同指标评测
文章目录
一、VidGen数据集
(1)VidGen数据集:vidgen-1M利用了来自HD-VILA数据集的380万高分辨率、长时段视频。随后,这些视频被分割成1.08亿个视频片段。接下来,本文对这些视频片段进行了标注和采样。然后,使用VILA模型进行视频字幕生成
论文链接:https://arxiv.org/pdf/2408.02629
项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/