自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 资源 (1)
  • 收藏
  • 关注

原创 论文阅读:Detecting, Explaining, and Mitigating Memorization in Diffusion Models

对于扩散模型可能“记住”的特定prompt,无论初始种子如何,它们生成的图像都极其相似。这说明模型最终生成的图像会极大程度地背离初始点。

2024-03-11 21:34:49 320

原创 论文阅读-SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large

本篇文章主要是测评GPT4V 和Gemini的深伪鉴别能力的文章,探究了闭源多模态模型使用提示学习在活体检测、深伪鉴别两个任务上的回答质量。

2024-03-11 21:10:29 220

原创 DomainForensics: Exposing Face Forgery across Domains via Bi-directional Adaptation

本文介绍了一个深度学习模型用于检测DeepFake,该模型需要将已知伪造样本的知识转移到新的伪造样本上。作者提出了一个目标域和源域的概念,目标域只包含未标注的样本,而源域则包含样本和标签。作者的目标是让特征提取器学习到不同域之间的共同伪造特征,以实现在源域和目标域上的良好性能。作者提出的模型由分类器和特征提取器组成,其中分类器和特征提取器的参数分别为θG和θF。

2024-01-24 10:20:45 883

原创 论文阅读-Narrowing Domain Gaps with Bridging Samples for Generalized Face Forgery Detection

多数伪造检测方法都面临着泛化问题。特别是,现有的泛化方法很难检测到未见过的伪造类型的假脸。本文作者认为,泛化存在困难的原因是跨伪造类型间的分布差距太大。因此,在本文中,作者通过基于领域对齐来缩小不同伪造类型的样本特征的差距。

2023-12-05 14:17:57 269 2

原创 论文阅读-Null-text Inversion for Editing Real Images using Guided Diffusion Models

利用DDIM Inversion做图像重建或图像编辑任务时,直接做有条件的DDIM重建会导致误差累积,从而导致重建结果逐渐偏离原图像;现有的图像编辑方法大多需要对模型进行微调,或对模型权重、内部结构等进行优化,操作起来比较复杂。本文方法:null-text inversion首先对输入图像提取caption,然后在每个采样时间步t,都利用以下损失函数对null-text embedding进行优化,最终得到每个采样时间节点t所对应的优化后的null-text embedding,并实现对图像的重建和编辑

2023-12-05 13:47:31 806

原创 论文阅读-FCD-Net: 学习检测多类型同源深度伪造人脸图像

提出了一种基于多分类任务的深度伪造人脸图像检测方法,该方法可以检测整个人脸合成、人脸交换、人脸属性处理和真实人脸图像。该方法基于一个设计良好的网络框架,包括面部突触显著性模块(FSS)、轮廓细节特征提取模块(CDFE)和区分特征融合模块(DFF)三个模块。

2023-10-17 21:35:12 1452

原创 论文阅读-可泛化深度伪造检测的关键

学习类内一致性和类间多样性的特征,我们利用一种新的基于Transformer的自监督学习方法和一种有效的数据增强策略来增强深度伪检测泛化性。

2023-10-17 20:25:43 1080

原创 数据开发工程师-面试题

递增数组,判断数组中是否存在两个数之和为target,思路为双指针,一个begin,一个end,每次移动一个指针。逆序对在一个数组中,如果一个数比其后面的数大,则称这两个数构成一个逆序对。所有非主键列(非关键字列)都必须完全依赖于候选键(主键)。所有的数据必须是原子的,不能包含集合、数组、嵌套表格等非原子数据。方法:使用双指针的方法,遍历两个输入数组,逐个比较元素,将较小的元素添加到新数组中。,即表中的每一列都应该与主键有关系,而不是只与主键的一部分有关。的链表,表示两个非负的整数。它们每位数字都是按照。

2023-09-24 19:07:40 608 3

原创 大数据开发工程师面试题

map/reduce程序执行时,reduce节点大部分执行完毕,但是又一个或几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时时百倍或千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完,称为数据倾斜。用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提供一种解决方法:自己实现partition类,用key和value相加取hash值。21、Hbase的rowkey怎么创建好?

2023-09-23 14:38:54 647

原创 计算机视觉面试题整理

②曼哈顿距离更适合在各维度上的尺度不同或者数据呈现明显的块状分布时,因为它不考虑各维度之间的差异,而只计算了坐标轴上的距离。(休息一下,晚点回来~按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且树模型不能进行梯度下降,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。6、在k-means或KNN,我们常用欧氏距离来计算最近的邻居之间的距离,有时也用曼哈顿距离,请对比下这两种距离的差别。

2023-09-13 17:43:23 559 1

原创 深度学习常用的Python库(核心库、可视化、NLP、计算机视觉、深度学习等)

然而,它的发展停滞不前,其最后一版发布于2009年。幸运的是,Pillow 是一个积极开发的 PIL 分支,它更易于安装,可在所有主流操作系统上运行,并支持 Python 3。PIL( Python Imaging Library )是一个免费的 Python 编程语言库,(5)自然语言处理:NLTK、SpaCy、Gensim。(4)分布式深度学习:Dist-(6)数据抓取:Scrapy。

2023-09-10 23:50:48 2017

原创 Pytorch面试题整理(2023.09.10)

nn.Sequential 里面的顺序是你想要的,而且不需要再添加一些其他处理的函数 (比如nn.functional 里面的函数,nn 与 nn.functional 有什么区别?成 [[3.0, 3.0], [3.0, 3.0]],和 l1 的形状一样之后,再进行加法计算,计算的导数结果实际上为 [[2.0, 2.0], [2.0, 2.0]],为了对应常数输入,所以最后 w2 的梯度返回为矩阵之和 8。反之,如果卷积层的设置一直变化,将会导致程序不停地做优化,反而会耗费更多的时间。

2023-09-10 23:17:13 4489

原创 数据分析面试题(2023.09.08)

如果P值很小,说明原假设情况的发生的概率很凶啊,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。但是检验的结果究竟时“显著的”“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。因为男女的点击率可能有较大的差异,同时低点击率的群体的占比增大。1、54张扑克牌,分成2份,求着2份都有2张A的概率。

2023-09-08 17:31:24 3728

原创 计算机视觉领域经典模型汇总(RCNN、YOLO等)

Fast R-CNN是在RCNN和Selective Search基础上提出的改进方法,主要创新是将整个目标检测流程集成到一个卷积神经网络(CNN)种,从而显著提高了速度和性能。主要经典算法有:YOLO。Faster R-CNN 进一步改进了 Fast R-CNN,将目标检测模型的速度提高到了一个新的水平,同时保持了很高的准确性。RCNN是用于目标检测的经典方法,其核心思想是将目标检测任务分解为两个主要步骤:候选区域生成和目标分类。

2023-09-07 16:53:01 2891

原创 深度学习面试八股文(2023.9.06)

假设有两个模型,一个是生成模型(Generative Model,下文简写为G),一个是判别模型(Discriminative Model,下文简写为D),判别模型(D)的任务就是判断一个实例是真实的还是由模型生成的,生成模型(G)的任务是生成一个实例来骗过判别模型(D),两个模型相互对抗,最终使得生成模型生成的实例域真实的没有区别,判别模型无法区分自然的还是模型生成的。CNN的关键是卷积运算,卷积核和卷积输入层进行局部连接可以获取整个输入的局部特征信息或者说是每个输入特征的组合特征。

2023-09-06 17:35:25 3806 1

原创 深度学习模型的泛化性

泛化性指模型经过训练后,应用到新数据并做出准确预测的能力。一个模型在训练数据上经常被训练得太好即过拟合,以致无法泛化。

2023-09-06 13:47:53 879

原创 算法面试-深度学习基础面试题整理-AIGC相关(2023.9.01)

包括了ChatGPT (文本到文本的对话模型)与 DALL-E-2(文本到图像的生成模型) , Codex(文本到代码的生成模型) ,Dreamfusion (文本到3D图像), Flamingo(图像到文本),Phenaki (文本到视频),AudioLM(文本到音频),Galactica(文本到科学文本),AlphaTensor(自动搜索高性能的矩阵运算逻辑)等模型。为了能够训练这些巨大的模型,必须拥有强大的计算能力和一支技术精湛、经验丰富的数据科学和数据工程团队。2、如何改善GAN的模式坍塌?

2023-09-01 17:32:21 3347 1

原创 算法面试-深度学习基础面试题整理(2023.8.29开始)

算法面试-深度学习面试题整理(2024.8.29开始,每天下午持续更新....)

2023-08-29 17:45:27 985 1

原创 论文阅读-DF-Platter: Multi-Face Heterogeneous Deepfake Dataset(多人脸异构深度伪造数据集)

DF-Platter数据集,是一个多人脸异构的 deepfake 数据集。该数据集模拟了deepfake生成的真实场景。使用多种技术生成的低分辨率和高分辨率深度伪造;带有印度种族面部图像的单主体和多主体深度伪造数据集。

2023-07-05 10:48:04 2347 12

原创 论文阅读:DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection(Deepfake模型快速调参)

提出了一个针对深度伪造模型的高效的参数微调方法,考虑ViT模型能够提取到高级的语义信息,本研究利用参数微调方法微调ViT模型用于深度伪造检测。

2023-07-05 10:40:29 338 1

原创 图像的低秩表达与LoRA技术

以传统微调方法相比,无需消耗大量内存和GPU,它可以通过优化适应过程中密集层变化的秩分解矩阵,来间接训练神经网络中的一些密集层,同时保持预先训练的权重不变。这样可以显著降低参数量,提高计算和存储效率。

2023-06-07 11:17:12 179

原创 论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake(多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF)

以前的方法仅侧重单模态的伪造,即使有多模态的数据也只是将音频信号当做监督信号,忽略了音频被伪造的可能。本文提出一个新的多模态基准数据集DefakeAVMiT,其包含足够多的视频和音频伪造内容,两个模态均有伪造。本文提出了一种检测Deepfake的视听联合学习方法(AVoiD-DF),其利用视听不一致性进行多模态伪造检测。

2023-05-30 11:12:02 1282 4

原创 论文阅读-DGM4-Detecting and Grounding Multi-Modal Media Manipulation

本文提出了检测并定位多模态媒体篡改任务DGM4、构建并开源了DGM4数据集,同时提出了多模态层次化篡改推理模型。

2023-05-16 16:40:56 1348 4

原创 DE-FAKE: Detection and Attribution ofFake Images Generated by Text-to-Image Generation Models

本文的主要创新是开发了一种机器学习分类器,用于检测和归因文本到图像生成模型生成的虚假图像。该研究对四种流行的文本到图像生成模型进行了广泛的实验,包括DALL·E 2, Stable Diffusion, GLIDE, and Latent Diffusion,以及两个基准图像数据集MSCOCO和Flickr30k。实验结果表明,可以将各种模型生成的虚假图像与真实图像区分开来,并且可以有效地将虚假图像归因于其源模型。

2023-05-15 09:31:39 550

原创 Prompting Learning在CV领域的进展

NLP领域提出了Prompt新范式,企图革新原先的Fine-tuning方法,而在CV领域prompt可以理解为图像的label设计,从这个角度看,prompt(预测文本中的mask字符,完形填空式)其实是介于Image caption(给出一幅图,生成一段描述的文字,迭代预测出每一个字符)和one-hot label (one-hot可以认为是prompt的特例,单字符通过文本编码器编码成one-hot)之间的任务。​

2023-05-12 10:26:35 1786 1

原创 Visual Prompt

正如随着attention机制和transformer在NLP成为主流,attention+CNN、Vit、Swin-transformer、ShiftVit等基于attention和transformer的CV模型不断涌出一样;在看到prompting在NLP变得越来越火时,我们自然问道:Why not visual prompting?

2023-04-03 11:04:12 1909 3

原创 论文阅读-Self-Supervised Video Forensics by Audio-Visual Anomaly Detection-音视频异常检测

之后训练了一个模型根据之前所有帧的特征去估计下一帧的特征,这些模型采用条件概率乘积的形式,其中每个特征都以先前的特征为条件。以上指示的是视频片段和音频片段暂时同时出现的可能性,总和取的是时间窗口内所有视频片段的总和,估计了所有视听对在时间窗口的同步分数(同步概率)。通过检测音频和视频信号之间的不一致性来识别被操纵的视频,该方法使用自回归模型生成一系列视听特征,这些特征捕捉了视频帧和声音之间的时间同步。训练后,该方法可用于获得用于异常检测的特征集,该特征集提供视频片段和音频之间可能的对齐的概率分布。

2023-03-30 15:06:19 920 1

原创 大模型时代下做科研的四个思路

注:模型蒸馏:使用训练集训练出来一个完整复杂的teacher模型,然后设计一个小规模的student模型,再固定teacher模型的权重参数,然后使用训练集和teacher模型的输出同时对student模型进行训练,此时就需要设计一系列loss,让student模型在蒸馏学习的过程中逐渐向teacher模型的表现特性靠拢,使得student模型的预测精度逐渐逼近teacher模型。因此训练成本大幅降低。例如下图,将两个图片通过数据增强得到第三个图片,同时将两个图片的文本进行拼接得到第三个图片的文本。

2023-03-27 17:17:13 1962 3

原创 论文阅读-Training a Helpful and Harmless Assistant withReinforcement Learning from Human Feedback

把对喜好的建模和RLHF用来做微调语言模型使得模型是有效且无害的。可以提升几乎所有自然语言的评估性能,还可以实现一些额外的技能,如coding,摘要,写作等,模型足够大时可以学到很多种类技能。并且使用迭代的在线学习训练,每星期训练一个新的奖励函数和RL策略,训练了新的模型以后重新进行人工标注,不断更新。

2023-03-23 09:58:09 1523 1

原创 论文阅读-(GLIP)Grounded Language-Image Pre-training (目标检测+定位)

GLIP 模型统一了目标检测(object detection)和定位(grounding)两个任务,构建了一个统一的训练框架,从而将两个任务的数据集都利用起来。再配合伪标签的技术来扩增数据,使得训练的数据量达到了前所未有的规模。在训练完成之后,直接以 zero-shot 的方式在 COCO 数据集上进行测试,达到了 49.8 AP。

2023-03-06 11:11:30 2748

原创 论文阅读-Attention Bottlenecks for Multimodal Fusion(多模态特征融合)

本文提出的模型在与其他模态共享之前,对每个模态的信息进行整理和“浓缩”。核心思想是引入一小部分 “注意力瓶颈” 的潜在融合单元,层中的跨模态相互作用必须通过这些单元执行。作者证明了这种 “瓶颈” 结构优于其不受限制的版本,且计算成本较低。

2023-03-02 11:08:41 1323

原创 论文阅读-DDFN: Decoupled Dynamic Filter Networks解耦的动态卷积

动态卷积的参数量从普通静态卷积的 (c × c × k × k ) 提升为 (c × c × k × k × h × w),参数量显著增加,计算复杂。为了降低计算量,作者提出了解耦的思路,把 (c × h × w) 分解成 (h × w + c),即先计算空间位置的动态卷积,再计算通道上的动态卷积。

2023-02-20 14:10:13 863 3

原创 论文阅读-DFN: Dynamic Filter Networks-动态卷积网络

作者提出了一个 Dynamic Filter Networks,这个模型中的卷积核是可学习的,通过学习将输入映射到过滤器的函数,实现随输入的不同而变化

2023-02-20 14:06:22 1055 1

原创 论文阅读-SegNeXt: 重新思考基于卷积注意力的语义分割

在本文中,作者重新思考了卷积注意力的设计,并提出了一种高效且有效的语义分割编码器-解码器架构。与之前在解码器中使用卷积作为特征细化器的基于Transformer的模型不同,本文的方法反转了Transformer-卷积 编码器-解码器架构,即对编码器采用了传统卷积模块但引入了多尺度卷积注意力,对解码器采用Hamburger模型(自注意力的替代方案)进一步提取上下文信息。

2023-02-20 13:58:03 973

原创 论文阅读-SeqFakeFormer:Detecting and Recovering Sequential DeepFake Manipulation(深度伪造篡改序列检测还原)

解决DeepFake问题最常见的方式是学习一个二分类模型来进行真/假判别,相比于现有基于二分类 (真/假) 的 DeepFake 检测,Seq-DeepFake任务将其扩展为要求检测不同长度和顺序的篡改序列。

2023-02-20 13:44:16 596

原创 论文阅读-Exposing GAN-generated faces using inconsistent corneal specular highlights(眼睛高光鉴伪)

借助生理信号,提出了一种研究两只眼睛角膜上的高光图案是否一致从而判断其是否为Deepfake图片的方案。

2022-11-24 15:09:46 277 1

原创 论文阅读-Detecting and Recovering Sequential DeepFake Manipulation(SeqFakeFormer)

如今由于人脸编辑App的流行,我们可以非常方便地对人脸图片进行多步序列DeepFake篡改。比如对一张人脸图片,先后进行「添加眼镜-加入笑容-去掉胡须」的序列篡改。为解决此类新型DeepFake问题,来自南洋理工大学的研究人员提出了检测并还原DeepFake篡改序列(Seq-DeepFake)任务。

2022-11-24 14:57:21 651 1

原创 论文阅读-Joint Audio-Visual Deepfake Detection(音视频Deepfake检测)

本文提出一种新的视觉-听觉Deepfake联合检测任务,利用视觉和听觉两种模式之间的内在关系可以帮助deepfake检测。

2022-11-24 14:48:38 1870 1

原创 论文阅读-Exploring Frequency Adversarial Attacks for Face Forgery Detection(探索用于人脸伪造检测的频率对抗性攻击)

虽然现有的人脸伪造分类器在检测伪造图像取得的性能不错,但很容易受到在像素上注入不可感知的扰动的对抗例子的攻击,同时许多人脸伪造检测器总是利用真假人脸之间的频率差异作为关键线索,本文提出一种针对人脸伪造检测器的频率对抗性攻击方法,这种方法更不易被人类察觉,且不会降低原始图像的视觉质量。还提出基于空域和频域混合对抗性攻击,该方法不仅能有效地欺骗基于空间的检测器,还能有效地欺骗基于频域的检测器。

2022-11-20 20:55:44 1698 1

原创 论文阅读-Combining EfficientNet and Vision Transformers for Video Deepfake Detection(深度鉴伪)

传统基于CNN的方法在EfficientNetB7上效果很好,本文使用EfficientNet B0和ViT结合在DFDC数据集上取得了auc 0.951和f1 0.88的成绩,与DFDC数据集上最好的检测水平非常接近。将各种类型的视觉变换器与卷积EfficientNet B0相结合,提取人脸特征。不使用蒸馏法,也不使用集成法。而是一种基于简单投票的方案,用于处理同一视频镜头中的多个不同人脸。在时间上和跨多个人脸上 聚合推断出视频片段的真伪。

2022-11-20 20:34:41 710 3

信息检索-阅读作业-2021年SIGIR最佳学生论文讲解PPT.pptx

信息检索-阅读作业-2021年SIGIR最佳学生论文讲解PPT 国科大信息检索导论课程要求

2022-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除