海拉鲁的小厨娘-CSDN博客

原创论文阅读：Detecting, Explaining, and Mitigating Memorization in Diffusion Models

对于扩散模型可能“记住”的特定prompt，无论初始种子如何，它们生成的图像都极其相似。这说明模型最终生成的图像会极大程度地背离初始点。

2024-03-11 21:34:49 320

原创论文阅读-SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large

本篇文章主要是测评GPT4V 和Gemini的深伪鉴别能力的文章，探究了闭源多模态模型使用提示学习在活体检测、深伪鉴别两个任务上的回答质量。

2024-03-11 21:10:29 220

原创 DomainForensics: Exposing Face Forgery across Domains via Bi-directional Adaptation

本文介绍了一个深度学习模型用于检测DeepFake，该模型需要将已知伪造样本的知识转移到新的伪造样本上。作者提出了一个目标域和源域的概念，目标域只包含未标注的样本，而源域则包含样本和标签。作者的目标是让特征提取器学习到不同域之间的共同伪造特征，以实现在源域和目标域上的良好性能。作者提出的模型由分类器和特征提取器组成，其中分类器和特征提取器的参数分别为θG和θF。

2024-01-24 10:20:45 883

原创论文阅读-Narrowing Domain Gaps with Bridging Samples for Generalized Face Forgery Detection

多数伪造检测方法都面临着泛化问题。特别是，现有的泛化方法很难检测到未见过的伪造类型的假脸。本文作者认为，泛化存在困难的原因是跨伪造类型间的分布差距太大。因此，在本文中，作者通过基于领域对齐来缩小不同伪造类型的样本特征的差距。

2023-12-05 14:17:57 269 2

原创论文阅读-Null-text Inversion for Editing Real Images using Guided Diffusion Models

利用DDIM Inversion做图像重建或图像编辑任务时，直接做有条件的DDIM重建会导致误差累积，从而导致重建结果逐渐偏离原图像；现有的图像编辑方法大多需要对模型进行微调，或对模型权重、内部结构等进行优化，操作起来比较复杂。本文方法：null-text inversion首先对输入图像提取caption，然后在每个采样时间步t，都利用以下损失函数对null-text embedding进行优化，最终得到每个采样时间节点t所对应的优化后的null-text embedding，并实现对图像的重建和编辑

2023-12-05 13:47:31 806

原创论文阅读-FCD-Net: 学习检测多类型同源深度伪造人脸图像

提出了一种基于多分类任务的深度伪造人脸图像检测方法，该方法可以检测整个人脸合成、人脸交换、人脸属性处理和真实人脸图像。该方法基于一个设计良好的网络框架，包括面部突触显著性模块（FSS）、轮廓细节特征提取模块（CDFE）和区分特征融合模块（DFF）三个模块。

2023-10-17 21:35:12 1452

原创论文阅读-可泛化深度伪造检测的关键

学习类内一致性和类间多样性的特征，我们利用一种新的基于Transformer的自监督学习方法和一种有效的数据增强策略来增强深度伪检测泛化性。

2023-10-17 20:25:43 1080

原创数据开发工程师-面试题

递增数组，判断数组中是否存在两个数之和为target，思路为双指针，一个begin,一个end,每次移动一个指针。逆序对在一个数组中，如果一个数比其后面的数大，则称这两个数构成一个逆序对。所有非主键列（非关键字列）都必须完全依赖于候选键（主键）。所有的数据必须是原子的，不能包含集合、数组、嵌套表格等非原子数据。方法：使用双指针的方法，遍历两个输入数组，逐个比较元素，将较小的元素添加到新数组中。，即表中的每一列都应该与主键有关系，而不是只与主键的一部分有关。的链表，表示两个非负的整数。它们每位数字都是按照。

2023-09-24 19:07:40 608 3

原创大数据开发工程师面试题

map/reduce程序执行时，reduce节点大部分执行完毕，但是又一个或几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时时百倍或千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完，称为数据倾斜。用hadoop程序进行数据关联时，常碰到数据倾斜的情况，这里提供一种解决方法：自己实现partition类，用key和value相加取hash值。21、Hbase的rowkey怎么创建好？

2023-09-23 14:38:54 647

原创计算机视觉面试题整理

②曼哈顿距离更适合在各维度上的尺度不同或者数据呈现明显的块状分布时，因为它不考虑各维度之间的差异，而只计算了坐标轴上的距离。（休息一下，晚点回来~按照特征值进行排序的，排序的顺序不变，那么所属的分支以及分裂点就不会有不同。而且树模型不能进行梯度下降，因为构建树模型（回归树）寻找最优点时是通过寻找最优分裂点完成的，因此树模型是阶跃的，阶跃点是不可导的，并且求导没意义，也就不需要归一化。6、在k-means或KNN，我们常用欧氏距离来计算最近的邻居之间的距离，有时也用曼哈顿距离，请对比下这两种距离的差别。

2023-09-13 17:43:23 559 1

原创深度学习常用的Python库（核心库、可视化、NLP、计算机视觉、深度学习等）

然而，它的发展停滞不前，其最后一版发布于2009年。幸运的是，Pillow 是一个积极开发的 PIL 分支，它更易于安装，可在所有主流操作系统上运行，并支持 Python 3。PIL（ Python Imaging Library ）是一个免费的 Python 编程语言库，（5）自然语言处理：NLTK、SpaCy、Gensim。（4）分布式深度学习：Dist-（6）数据抓取：Scrapy。

2023-09-10 23:50:48 2017

原创 Pytorch面试题整理（2023.09.10）

nn.Sequential 里面的顺序是你想要的，而且不需要再添加一些其他处理的函数 (比如nn.functional 里面的函数，nn 与 nn.functional 有什么区别?成 [[3.0, 3.0], [3.0, 3.0]]，和 l1 的形状一样之后，再进行加法计算，计算的导数结果实际上为 [[2.0, 2.0], [2.0, 2.0]]，为了对应常数输入，所以最后 w2 的梯度返回为矩阵之和 8。反之，如果卷积层的设置一直变化，将会导致程序不停地做优化，反而会耗费更多的时间。

2023-09-10 23:17:13 4489

原创数据分析面试题（2023.09.08）

如果P值很小，说明原假设情况的发生的概率很凶啊，而如果出现了，根据小概率原理，我们就有理由拒绝原假设。但是检验的结果究竟时“显著的”“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。参数估计和假设检验是统计推断的两个组成部分，它们都是利用样本对总体进行某种推断，但推断的角度不同。P值是用来判定假设检验结果的一个参数，也可以根据不同的分布使用分布的拒绝域进行比较。因为男女的点击率可能有较大的差异，同时低点击率的群体的占比增大。1、54张扑克牌，分成2份，求着2份都有2张A的概率。

2023-09-08 17:31:24 3728

原创计算机视觉领域经典模型汇总（RCNN、YOLO等）

Fast R-CNN是在RCNN和Selective Search基础上提出的改进方法，主要创新是将整个目标检测流程集成到一个卷积神经网络（CNN）种，从而显著提高了速度和性能。主要经典算法有：YOLO。Faster R-CNN 进一步改进了 Fast R-CNN，将目标检测模型的速度提高到了一个新的水平，同时保持了很高的准确性。RCNN是用于目标检测的经典方法，其核心思想是将目标检测任务分解为两个主要步骤：候选区域生成和目标分类。

2023-09-07 16:53:01 2891

原创深度学习面试八股文（2023.9.06）

假设有两个模型，一个是生成模型（Generative Model,下文简写为G)，一个是判别模型(Discriminative Model,下文简写为D)，判别模型（D）的任务就是判断一个实例是真实的还是由模型生成的，生成模型（G）的任务是生成一个实例来骗过判别模型（D），两个模型相互对抗，最终使得生成模型生成的实例域真实的没有区别，判别模型无法区分自然的还是模型生成的。CNN的关键是卷积运算，卷积核和卷积输入层进行局部连接可以获取整个输入的局部特征信息或者说是每个输入特征的组合特征。

2023-09-06 17:35:25 3806 1

原创深度学习模型的泛化性

泛化性指模型经过训练后，应用到新数据并做出准确预测的能力。一个模型在训练数据上经常被训练得太好即过拟合，以致无法泛化。

2023-09-06 13:47:53 879

原创算法面试-深度学习基础面试题整理-AIGC相关（2023.9.01）

包括了ChatGPT （文本到文本的对话模型）与 DALL-E-2（文本到图像的生成模型）， Codex（文本到代码的生成模型），Dreamfusion （文本到3D图像）， Flamingo（图像到文本），Phenaki （文本到视频），AudioLM（文本到音频），Galactica（文本到科学文本），AlphaTensor（自动搜索高性能的矩阵运算逻辑）等模型。为了能够训练这些巨大的模型，必须拥有强大的计算能力和一支技术精湛、经验丰富的数据科学和数据工程团队。2、如何改善GAN的模式坍塌？

2023-09-01 17:32:21 3347 1

原创算法面试-深度学习基础面试题整理（2023.8.29开始）

算法面试-深度学习面试题整理（2024.8.29开始，每天下午持续更新....）

2023-08-29 17:45:27 985 1

原创论文阅读-DF-Platter: Multi-Face Heterogeneous Deepfake Dataset（多人脸异构深度伪造数据集）

DF-Platter数据集，是一个多人脸异构的 deepfake 数据集。该数据集模拟了deepfake生成的真实场景。使用多种技术生成的低分辨率和高分辨率深度伪造；带有印度种族面部图像的单主体和多主体深度伪造数据集。

2023-07-05 10:48:04 2347 12

原创论文阅读：DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection（Deepfake模型快速调参）

提出了一个针对深度伪造模型的高效的参数微调方法，考虑ViT模型能够提取到高级的语义信息，本研究利用参数微调方法微调ViT模型用于深度伪造检测。

2023-07-05 10:40:29 338 1

原创图像的低秩表达与LoRA技术

以传统微调方法相比，无需消耗大量内存和GPU，它可以通过优化适应过程中密集层变化的秩分解矩阵，来间接训练神经网络中的一些密集层，同时保持预先训练的权重不变。这样可以显著降低参数量，提高计算和存储效率。

2023-06-07 11:17:12 179

原创论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake（多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF）

以前的方法仅侧重单模态的伪造，即使有多模态的数据也只是将音频信号当做监督信号，忽略了音频被伪造的可能。本文提出一个新的多模态基准数据集DefakeAVMiT，其包含足够多的视频和音频伪造内容，两个模态均有伪造。本文提出了一种检测Deepfake的视听联合学习方法（AVoiD-DF），其利用视听不一致性进行多模态伪造检测。

2023-05-30 11:12:02 1282 4

原创论文阅读-DGM4-Detecting and Grounding Multi-Modal Media Manipulation

本文提出了检测并定位多模态媒体篡改任务DGM4、构建并开源了DGM4数据集，同时提出了多模态层次化篡改推理模型。

2023-05-16 16:40:56 1348 4

原创 DE-FAKE: Detection and Attribution ofFake Images Generated by Text-to-Image Generation Models

本文的主要创新是开发了一种机器学习分类器，用于检测和归因文本到图像生成模型生成的虚假图像。该研究对四种流行的文本到图像生成模型进行了广泛的实验，包括DALL·E 2, Stable Diffusion, GLIDE, and Latent Diffusion，以及两个基准图像数据集MSCOCO和Flickr30k。实验结果表明，可以将各种模型生成的虚假图像与真实图像区分开来，并且可以有效地将虚假图像归因于其源模型。

2023-05-15 09:31:39 550

原创 Prompting Learning在CV领域的进展

NLP领域提出了Prompt新范式，企图革新原先的Fine-tuning方法，而在CV领域prompt可以理解为图像的label设计，从这个角度看，prompt(预测文本中的mask字符，完形填空式）其实是介于Image caption(给出一幅图，生成一段描述的文字，迭代预测出每一个字符）和one-hot label (one-hot可以认为是prompt的特例，单字符通过文本编码器编码成one-hot)之间的任务。

2023-05-12 10:26:35 1786 1

原创 Visual Prompt

正如随着attention机制和transformer在NLP成为主流，attention+CNN、Vit、Swin-transformer、ShiftVit等基于attention和transformer的CV模型不断涌出一样；在看到prompting在NLP变得越来越火时，我们自然问道：Why not visual prompting?

2023-04-03 11:04:12 1909 3

原创论文阅读-Self-Supervised Video Forensics by Audio-Visual Anomaly Detection-音视频异常检测

之后训练了一个模型根据之前所有帧的特征去估计下一帧的特征，这些模型采用条件概率乘积的形式，其中每个特征都以先前的特征为条件。以上指示的是视频片段和音频片段暂时同时出现的可能性，总和取的是时间窗口内所有视频片段的总和，估计了所有视听对在时间窗口的同步分数（同步概率）。通过检测音频和视频信号之间的不一致性来识别被操纵的视频，该方法使用自回归模型生成一系列视听特征，这些特征捕捉了视频帧和声音之间的时间同步。训练后，该方法可用于获得用于异常检测的特征集，该特征集提供视频片段和音频之间可能的对齐的概率分布。

2023-03-30 15:06:19 920 1

原创大模型时代下做科研的四个思路

注：模型蒸馏：使用训练集训练出来一个完整复杂的teacher模型，然后设计一个小规模的student模型，再固定teacher模型的权重参数，然后使用训练集和teacher模型的输出同时对student模型进行训练，此时就需要设计一系列loss，让student模型在蒸馏学习的过程中逐渐向teacher模型的表现特性靠拢，使得student模型的预测精度逐渐逼近teacher模型。因此训练成本大幅降低。例如下图，将两个图片通过数据增强得到第三个图片，同时将两个图片的文本进行拼接得到第三个图片的文本。

2023-03-27 17:17:13 1962 3

信息检索-阅读作业-2021年SIGIR最佳学生论文讲解PPT.pptx

空空如也