【AV-Deepfake1M】AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset

最新推荐文章于 2025-04-28 23:20:30 发布

jessIoss

最新推荐文章于 2025-04-28 23:20:30 发布

阅读量223

点赞数

分类专栏：论文阅读笔记DeepFake 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/sinat_39223177/article/details/143080322

版权

论文阅读笔记DeepFake 专栏收录该内容

66 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset
key points
贡献
- 与LAV-DF数据集对比：
AV-Deepfake1M数据集
- 数据生成管道
基准和评测
- 评估指标
结果
- 视听时间深伪定位

AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset

会议/期刊：ACM MM2024
作者：
在这里插入图片描述
code：https://github.com/ControlNet/AV-Deepfake1M

key points

拟了这种内容生成的过程，并提出了AV-Deepfake1M数据集。【音视频数据集】
数据集包含内容驱动的
(i)视频操作，
(ii)音频操作
(iii)对超过2K个主题进行视听处理，总共产生超过1M个视频。

在这里插入图片描述
该数据集专门为时间深度伪造定位任务而设计。
为了提高

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jessIoss

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

论文阅读-Joint Audio-Visual Deepfake Detection（音视频Deepfake检测）

一位不是很硕的鉴伪方向硕士

11-24

2531

本文提出一种新的视觉-听觉Deepfake联合检测任务，利用视觉和听觉两种模式之间的内在关系可以帮助deepfake检测。

[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--大模型相关、扩散模型、视觉导航

勿忘初心,方得始终

01-14

1789

在机器学习（ML）中，一句流传甚广的格言是，对于具有类不平衡的二进制分类任务，精度-召回曲线下的面积（AUPRC）是与接收器操作特性下的面积相比的模型比较的更好的度量。本文通过新颖的数学分析对这一概念提出了质疑，说明AUROC和AUPRC可以用概率术语简明地联系起来。我们证明，与普遍认为的相反，AUPRC在阶级失衡的情况下并不优越，甚至可能是一个有害的指标，因为它倾向于过度倾向于在具有更频繁阳性标签的亚群体中改进模型。这种偏见可能会无意中加剧算法差异。

参与评论您还未登录，请先登录后发表或查看评论

GitHub 被指审查内容，著名“换脸”开源项目 deepfake 遭限制访问

weixin_34281537的博客

02-18

522

开发四年只会写业务代码，分布式高并发都不会还做程序员？ >>> 昨天 Hacker News 上一条...

解密Deepfake(深度换脸)-基于自编码器的(Pytorch代码)

老潘的博客

01-23

8352

前言还记得在2018月3月份火爆reddit的deepfake吗？将视频中的头换成另一个人的头像，虽然可能有些粗糙和模糊，但是在分辨率不要求很高的情况下可以达到以假乱真的效果。举个栗子，如下图中将希拉里换成特朗普的一段演讲视频。另外还有实现川普和尼古拉脸相换：当然这只是DeepFake的冰山一角，Deepfake当初火起来的原因可以说是广大拥有宅男心态的程序员们一起奋斗的结果。那就是，...

LLMs之Agent：Personal_LLM_Agents_Survey的简介、使用方法之详细攻略

01-17

1万+

LLMs之Agent：Personal_LLM_Agents_Survey的简介、使用方法之详细攻略目录 Personal_LLM_Agents_Survey的简介 Personal_LLM_Agents_Survey的使用方法 Personal_LLM_Agents_Survey的简介个人LLM代理(智能体)被定义为一种特殊类型的基于LLM的代理，它与个人数据、个人设备和个人服务深度集成。它们最好部署到资源受限的移动/边缘设备和

【论文翻译】Robotic-CLIP: Fine-tuning CLIP on Action Data for Robotic Applications

溯源的专栏

10-18

900

摘要——视觉语言模型在为各种机器人应用提取有意义的特征方面发挥了关键作用。其中，对比语言-图像预训练 (CLIP) 广泛应用于需要视觉和自然语言理解的机器人任务。然而，CLIP 仅在静态图像与文本提示配对的情况下进行训练，尚未完全适应涉及动态动作的机器人任务。在本文中，我们引入了 Robotic-CLIP 来增强机器人感知能力。我们首先收集并标记大规模动作数据，然后通过使用对比学习对 309,433 个动作数据视频（≈ 740 万帧）上的 CLIP 进行微调来构建我们的 Robotic-CLIP。

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉语言导航

勿忘初心,方得始终

01-29

1543

大型视觉语言模型（LVLMs）通过整合来自不同模态的丰富信息，可以全面理解世界，在各种多模态下游任务上取得显著进步。然而，由于其巨大的计算/能源成本和碳消耗，部署LVLMs通常是有问题的。这些问题使得采用传统的迭代全局修剪是不可行的，由于计算整个大模型的Hessian矩阵进行稀疏化，这是昂贵的。或者，一些研究最近提出了逐层修剪方法，以避免全局修剪的昂贵计算，并根据模型权重在层内的重要性有效地压缩模型权重。然而，由于缺乏全局视角，它们经常遭受次优模型压缩。

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

勿忘初心,方得始终

01-19

1082

执行因果推理的能力被广泛认为是智力的核心特征。在这项工作中，我们研究了大型语言模型（LLM）是否能够连贯地推理因果关系。自然语言处理（NLP）中的许多现有工作都集中在评估LLM中的常识性因果推理，从而未能评估模型是否能够根据一组定义明确的形式规则进行因果推理。为了解决这一问题，我们提出了一个新的NLP任务，即自然语言中的因果推理，其灵感来自Judea Pearl等人假设的“因果推理引擎”。

【AI视野·今日Sound 声学论文速览第二十二期】Tue, 10 Oct 2023

TomRen

10-11

370

神经信号语音合成模型

深度学习-数值稳定性和模型初始化

fantasy_ARM9的博客

04-24

380

到目前为止，我们实现的每个模型都是根据某个预先制定的分布来初始化模型的参数，有人会认为初始化方案时理所当然的，忽略了如何做出这些选择的细节，甚至有人可能会觉得，初始化方案的选择并不是特别重要，实际上，初始化方案的选择在神经网络学习中起着举足轻重的作用，保持数值稳定性至关重要。换而言之，该剃度是L-1 个矩阵M(L) ... M(l + 1) 与梯度向量v(l)的乘积。遗憾的是，这会使上面的问题更为严重，矩阵M可能是各种各样的特征值，可能很小，也可能很大，而他们的乘积可能非常大，也可能非常小。

深度学习新趋势：利用MLP取代卷积层——S2-MLPv2模型解析

qq_18943707的博客

04-27

426

从学术研究到工业应用，深度学习的演进从未停歇。S2-MLPv2的成功展示了一条新的可能性道路——用更灵活高效的模型结构来应对复杂的现实任务。面对未来，让我们保持敏锐的洞察和探索的热情，在这条创新驱动的路上不断前行。

团队研究成果|基于物理信息深度学习的交通状态估计

zuiyishihefang的博客

04-26

1029

通过在不同稀疏数据情境下进行大量的实验研究，利用美国101高速公路的NGSIM数据，深入探讨了PIDL方法在不同交通流场景中的应用，结果验证了该模型的高效性和精确度。本文的研究不仅探讨了数据稀疏性对交通状态估计的影响，还通过应用PIDL方法取得了显著的成果，具有重要的实际意义，特别是在实际交通流控制和管理中的应用。通过该方法的研究和应用，我们可以更好地理解数据驱动方法和模型驱动方法的优势与劣势，以及它们在交通状态估计中的作用。检测器数量代表可用数据的规模，检测器数量越多，越有利于估计整个路段的交通状态。

【现代深度学习技术】循环神经网络07：通过时间反向传播

Morse_Chen的博客

04-28

972

本文讲解循环神经网络的通过时间反向传播。RNN梯度分析及BPTT是理解其原理的关键，通过深入分析RNN的梯度计算过程，我们可以更好地理解梯度爆炸和梯度消失的问题，BPTT可有效训练RNN捕捉序列依赖。

一种用于从视网膜图像中识别疾病的 BERT 式自监督学习 CNN

hao_wujing的专栏

04-28

475

在我们的网络中，输出图像的大小为(224,224)，下采样率为32，使我们的蒙版大小为(7,7).我们进一步使用从预训练模块中学到的特征图进行分类研究。此外，与传统的 CNN 相比，ViT 在图像处理中表现出较少的定位能力，因为它们的机制主要针对图像的块级，而不是直接关注单个像素。].我们在 CNN 中观察到的优势，以及预训练对自我监督学习的显着好处，以及 ViT 的潜在缺点，都激发了进一步的思考：是否有可能将性能良好的 CNN 与 BERT 风格的生成式自我监督学习相结合进行预训练，以结合两者的优势？

NLP高频面试题（五十三）——深度学习正则化详解

WeLearnNLP

04-24

230

R1w∑i∣wi∣R1wi∑∣wi∣.它会在优化过程中倾向于将许多权重压缩为零，实现稀疏化（sparsity）。稀疏模型不仅在存储和推理时更高效，也能自动完成特征选择，因为被置零的参数对应的输入特征被认为不重要。R2w∑iwi2R2wi∑wi2它会使得权重均匀收缩，但很少将其精确推到零。相比 L1，L2 更强调平滑性（smoothness），防止任意一个权重过大，从而降低模型对某一维特征的过度依赖。

RNN——循环神经网络

2403_87204666的博客

04-26

534

跨时间步跳跃连接（如 ht=ht−1+f(xt,ht−1)ht=ht−1+f(xt,ht−1)），直接传递梯度。核心机制：通过隐藏状态（hidden State）传递历史信息，每个时间步的输入包含当前数据和前一步的隐藏状态。多输入，多输出（如机器翻译）：每个时间步接收输入并生成输出（如逐词翻译）。：若权重矩阵特征值 ∣λ∣<1∣λ∣<1，梯度指数级衰减，深层参数无法更新。：若 ∣λ∣>1∣λ∣>1，梯度指数级增长，导致数值溢出或模型震荡。：合并细胞状态和隐藏状态，参数更少。

【神经网络与深度学习】五折交叉验证（5-Fold Cross-Validation）

最新发布

weixin_50512050的博客

04-28

308

五折交叉验证（5-Fold Cross-Validation）是一种广泛应用于机器学习模型性能评估的技术，通过多次实验确保模型的评估结果更加稳定、可靠，同时最大限度地利用有限的数据资源。它将数据分成若干子集，交替作为训练集和测试集，从而减少因数据划分偶然性带来的偏差，并为模型的选择和优化提供科学依据。本文将详细探讨五折交叉验证的具体流程、目的及其实际应用场景，为理解和实施这一方法提供全面的参考。

Nature Genetics | 测序技术与深度学习在 circRNA 鉴定中的应用

weixin_49214410的博客

04-24

758

circRNA 是一类广泛分布于各种生物体中的共价闭合 RNA 分子，参与的功能包括:①隔离 miRNA 和 RNA 结合蛋白（RBP）、②调控线粒体活性氧、③编码隐蔽肽段以及调节先天免疫。需要注意的是，circRNA 的环状结构赋予了其对内源性 RNA 外切酶降解的抗性，使其相较于线性 RNA 具有更加卓越的稳定性。这一稳定性优势已被用于工程化 circRNA 的多种应用，如新型冠状病毒疫苗、基因组编辑平台、RNA 编辑和 RNA 疗法。然而，circRNA 分子序列和细胞异质性的分析仍面临极大问题。

毕业设计-基于深度学习的入侵检测系统

xiaoniu667的博客

04-27

550

创新点展示：我们利用不同的深度学习模型对数据进行学习检测，包括CNN、GRU、Transformer以及蒸馏模型的结合。系统使用了NSL-KDD数据集，并结合了CNN、GRU、Transformer以及蒸馏模型来进行学习检测。数据集分析：我会对数据集中的各类数据信息进行详细分析，并使用pyecharts进行可视化展示。模型性能分析：展示训练过程中模型性能的变化，分析不同因素对学习结果的影响。

有没有什么评价算法视频消抖能力的算法

03-22

<think>好的，我现在需要回答用户关于如何评估视频消抖能力和视频稳定性的问题。首先，我得理解用户的需求。用户可能是在开发或优化视频防抖功能，需要找到合适的评测方法来衡量算法的效果。接下来，我应该从哪些方面入手呢？首先，视频稳定性的评估通常包括主观和客观两种方法。主观评估就是让人观看处理后的视频，给出评分，这虽然直接但成本高且不够标准化。客观评估则需要具体的指标和算法，比如计算相邻帧之间的运动变化，或者检测特征点的稳定性。这些指标需要量化，才能进行有效的比较。然后，我需要回忆一下常见的评测指标。比如，运动平滑度，可以通过计算帧间变换矩阵的差异来评估；残差运动能量可能涉及对剩余运动的分析；还有特征点轨迹的稳定性，使用光流法跟踪特征点，看它们的轨迹是否平滑。另外，结构相似性（SSIM）和峰值信噪比（PSNR）这些图像质量指标也可以用来评估处理后的视频质量是否下降。接下来，用户可能需要具体的算法步骤或工具。比如，使用OpenCV中的特征点检测和光流计算，或者利用现有的数据集如Adobe240或DeepStab进行测试。此外，结合业务目标，比如抖音需要提升投稿率，可能需要考虑评测方法是否高效，能否快速反馈结果，支持迭代优化，这引用中的引用[1]提到需要可量化的评估指标。同时，用户提供的引用[2]提到视频编解码、快速算法等，可能与视频处理的性能优化有关，评估时可能需要考虑编解码效率的影响。引用[4]中的弹性伸缩优化涉及到实时监控，可能评测方法需要高效且低延迟。然后，我需要组织这些思路，分点列出评测方法，包括主观和客观评估，具体指标，常用工具和数据集，以及业务落地的考虑。确保每个部分都清晰，并且引用相关的资料支持，比如在提到可量化指标时引用[1]，在编解码优化时引用[2]。最后，生成相关问题，帮助用户进一步探索，比如如何选择数据集、处理实时性要求、与编解码结合等，这些都能引导用户深入思考实际应用中的挑战。</think>### 评估视频防抖效果的算法与方法视频防抖效果评估需要结合主观感知和客观量化指标，以下是具体方法： --- #### 1. **主观评估** - **人工评分**：组织测试者对处理后视频的稳定性、流畅度、画质损失进行评分（如5分制）。例如，观察快速运动场景是否仍有明显抖动或扭曲[^1]。 - **对比测试**：将算法处理结果与未处理视频、其他算法（如Adobe Warp Stabilizer）对比，统计用户偏好比例。 --- #### 2. **客观量化指标** - **运动平滑度** 计算相邻帧间的运动变换矩阵（如仿射变换或单应性矩阵），分析其标准差或方差： $$ \text{Smoothness} = \frac{1}{N-1} \sum_{i=1}^{N-1} \| T_i - T_{i+1} \|^2 $$ 其中$T_i$为第$i$帧的变换矩阵，值越小表示越平滑[^2]。 - **残差运动能量** 对稳定后的视频提取光流场，计算剩余运动的幅度： $$ E_{\text{residual}} = \sum_{x,y} \sqrt{u(x,y)^2 + v(x,y)^2} $$ $u,v$为水平和垂直光流分量，值越低说明消抖效果越好。 - **特征点轨迹稳定性** 使用SIFT或ORB检测特征点，通过光流法跟踪轨迹，统计轨迹的加速度方差： $$ \sigma^2 = \frac{1}{M} \sum_{j=1}^{M} \left( \frac{1}{K} \sum_{k=1}^{K} \| a_{j,k} \|^2 \right) $$ 其中$a_{j,k}$为第$j$个特征点在第$k$帧的加速度。 - **画质保真度** 使用SSIM（结构相似性）或PSNR（峰值信噪比）对比原始视频与稳定后视频的质量损失： $$ \text{PSNR} = 10 \cdot \log_{10} \left( \frac{\text{MAX}^2}{\text{MSE}} \right) $$ MAX为像素最大值（如255），MSE为均方误差。 --- #### 3. **工具与数据集** - **开源工具**： - OpenCV（`cv2.CAP_PROP_XI_DEWARPING`模块） - MATLAB Video Stabilizer（基于特征点轨迹优化） - **公开数据集**： - Adobe240（含高速运动视频） - DeepStab（专用于视频稳定性测试）[^4] --- #### 4. **业务落地考量** - **实时性要求**：若用于移动端拍摄（如抖音投稿），需测试算法在目标设备上的FPS和处理延迟。 - **编解码影响**：评估防抖算法与H.266/AV1等编码器的兼容性，避免画质损失放大。 - **弹性测试**：模拟不同网络环境下的处理性能，参考SAE的弹性伸缩监控方案[^4]。 ---