自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 【书生大模型实战营】基础岛 第6关 XTuner 微调个人小助手认知

针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合大模型的实际使用场景。同时,由于大语言模型输出自由度较高,在评测阶段,我们需要对其输入和输出作一定的规范和设计,尽可能减少噪声输出在评测阶段的影响,才能对模型的能力有更加完整和客观的评价。为准确、全面、系统化地评估大语言模型的能力,OpenCompass 从通用人工智能的角度出发,结合学术界的前沿进展和工业界的最佳实践,提出一套面向实际应用的模型能力评价体系。您需要配置整个评估过程,选择要评估的模型和数据集。

2024-08-17 11:09:31 599

原创 【书生大模型实战营】基础岛 第5关 XTuner 微调个人小助手认知

在我们的输入的这个命令中,我们的 CONFIG 对应的是上面搜索到的 internlm2_chat_1_8b_qlora_alpaca_e3 ,而 SAVE_PATH 则是当前目录 .。该命令需要三个参数:CONFIG 表示微调的配置文件, PATH_TO_PTH_MODEL 表示微调的模型权重文件路径,即要转换的模型权重, SAVE_PATH_TO_HF_MODEL 表示转换后的 HuggingFace 格式文件的保存路径。比如我们这里微调的是书生·浦语的模型,我们就可以匹配搜索 internlm2。

2024-08-14 21:27:22 714

原创 【书生大模型实战营】基础岛 第4关 InternLM + LlamaIndex RAG 实践

给模型注入新知识的方式,可以简单分为两种方式,一种是内部的,即更新模型的权重,另一个就是外部的方式,给模型注入格外的上下文或者说外部信息,不改变它的的权重。第一种方式,改变了模型的权重即进行模型训练,这是一件代价比较大的事情,大语言模型具体的训练过程,可以参考InternLM2技术报告。对比两种注入知识方式,第二种更容易实现。st.session_state.messages = [{“role”: “assistant”, “content”: “你好,我是你的助手,有什么我可以帮助你的吗?

2024-08-14 09:47:37 962

原创 【书生大模型实战营】基础岛 第3关 浦语提示词工程实践

Prompt是一种用于指导以大语言模型为代表的生成式人工智能生成内容(文本、图像、视频等)的输入方式。它通常是一个简短的文本或问题,用于描述任务和要求。Prompt可以包含一些特定的关键词或短语,用于引导模型生成符合特定主题或风格的内容。例如,如果我们要生成一篇关于“人工智能”的文章,我们可以使用“人工智能”作为Prompt,让模型生成一篇关于人工智能的介绍、应用、发展等方面的文章。Prompt还可以包含一些特定的指令或要求,用于控制生成文本的语气、风格、长度等方面。

2024-08-13 16:42:22 968

原创 【书生大模型实战营】基础岛 第2关 8G 显存玩转书生大模型 Demo

LMDeploy 已经支持了 InternLM-XComposer2 系列的部署,但值得注意的是 LMDeploy 仅支持了 InternLM-XComposer2 系列模型的视觉对话功能。准确的视觉语言问题解决:InternLM-XComposer2 基于自由形式的指令准确地处理多样化和具有挑战性的视觉语言问答任务,在识别,感知,详细标签,视觉推理等方面表现出色。接下来,我们使用 LMDeploy 启动一个与 InternLM-XComposer2-VL-1.8B 模型交互的 Gradio 服务。

2024-08-12 22:37:47 810

原创 【书生大模型实战营】基础岛 第1关 书生大模型全链路开源体系

课程介绍了书生葡语的最新进展,包括7B和20B模型的开源及其性能提升。开源工具涵盖数据处理、模型微调、评测和部署,助力用户在科研和应用领域的创新。课程还强调了社区的协作与反馈机制,推动了模型的不断优化与迭代。短期记忆和上下文的处理能力在GPT4O模型中达到了100万的级别,展现出其强大的推理和复杂任务处理能力。通过不断的反馈和数据优化,模型性能得以提升,推动了开源体系的进步。书生浦语大模型的开源体系经过一年努力,已实现从数据收集到模型部署的全链路打通。学习视频内容,并做笔记。

2024-08-12 15:01:35 194

原创 【书生大模型实战营】入门岛 第2关 Python 基础知识

python的包管理pip与conda的源服务器均在境外,安装包的时候常常会碰到下载慢的情况。这时我们可以把pip与conda的源替换为国内的镜像,下面我们将刚刚安装好的环境替换为清华源。可以自己编写一个简单的python脚本,并尝试使用debug来更好的理解代码的运行逻辑。很多时候我们要debug的不止是一个简单的python文件,而是很多参数,参数中不止会有简单的值还可能有错综复杂的文件关系,甚至debug一整个项目。2: step over:跳过,可以理解为运行当前行代码,不进入具体的函数或者方法。

2024-08-11 23:11:39 685

原创 【书生大模型实战营】入门岛 第1关 Linux基础知识

InternStudio 是大模型时代下的云端算力平台。基于 InternLM 组织下的诸多算法库支持,为开发者提供开箱即用的大语言模型微调环境、工具、数据集,并完美兼容 🤗 HugginFace 开源生态。

2024-08-11 22:36:21 820

原创 【论文阅读】Fourier Spectrum Discrepancies in Deep Network Generated Images

在图像高频模式下分析,发现深度网络在最高频率下生成的图像的傅里叶模式不会像在真实图像中看到的那样衰减,而是保持近似恒定。真实图像显示出较大的衰减率和幅度范围,而深度网络生成图像显示出较小的衰减率,且幅度随生成模型的不同而变化。这些差异在更高的分辨率下更明显,但有损图像压缩算法修改了高频光谱并减小了这些差异。当高度压缩时,某些架构生成的图像在频域上与真实图像无法区分,但由VAEs等其他架构生成的图像由于其低水平的高频内容而不受影响。注:仅供学习交流。

2024-08-07 09:25:39 173

原创 【无标题】Learning Self-Consistency for Deepfake Detection

通过计算(h, w)- patch本身的值Mh,w与所有其他值之间的逐元差值,我们得到(h, w)- patch的ground truth 2D一致性映射MPh,w。提出了不一致图像生成器(I2G)来从原始图像中生成“自一致”图像,为了以最少的努力保证训练数据的足够数量和多样性,I2G通过用真实图像代替GAN或VAE[28,8,15,22]的面部图像合成来降低计算成本。对于源特征图中的每个patch Ph,w,我们将其与其他所有patch进行比较,衡量它们的特征相似度,得到一个2D一致性映射图。

2024-08-05 11:30:57 69

原创 【LipForensics】Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection

我们使用最先进的R(2+1)D-18[54]和ip-CSN-152[53]模型,它们具有与我们使用的ResNet-18+MS-TCN模型相似的参数数量。我们的剪辑包括25帧;FF++作为训练数据集,实验中的其他数据集包括DeeperForensics[30]和FaceShifter[34],每个数据集都采用了一种改进的人脸交换算法,应用于来自FF++的真实视频。时间网络是一种多尺度时间卷积网络(MSTCN)[40],它通过连接多个分支的输出来结合每一层的短期和长期时间信息,每个分支具有不同的时间接受野。

2024-07-29 11:32:56 35

原创 Do Deepfakes Feel Emotions? A Semantic Approach to Detecting Deepfakes Via Emotional Inconsistencies

这些是前13个Mel-Frequency倒频谱系数(MFCC)[42]以及它们的13个第一和13个秒统计矩,来自日内瓦极简声学参数集(GeMAPS)[23]的18个特征和来自扩展GeMAPS (eGeMAPS)的23个附加特征,从每个考虑的时间窗口中提取总共80个特征。为了为我们的实验创建一个数据集,我们考虑了文件夹45到49中包含假视频和音频的视频,并将它们与相应的真实源视频提取出来。然后,将这些估计提供给一个有监督的分类器,该分类器分析价态和唤醒行为,以检测视频是真实的还是深度伪造的。

2024-07-25 22:35:25 27

原创 In Ictu Oculi: Exposing AI Created Fake Videos by Detecting Eye Blinking

眨眼指的是眼睑快速闭合和打开的运动。自发眨眼是指在没有外界刺激和内部努力的情况下眨眼,由运动前脑干控制,在没有意识的情况下发生,具有重要的生物学功能,可以滋润泪液,清除角膜和结膜表面的刺激物。在最后的状态预测阶段,将每个RNN神经元的输出进一步发送到由一个全连接层组成的神经网络,该神经网络取LSTM的输出,生成眼睛睁开和闭上状态的概率,分别记为0和1。为了能够实验地评估我们的算法,我们下载了50个视频,每个视频代表一个个体,持续大约30秒,至少发生一次眨眼,形成了眨眼视频(EBV)数据集。

2024-07-03 16:54:50 62 1

原创 【 SCL】Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face

最后,在我们的单中心损失(见3.3节)和softmax损失的联合监督下,网络学习了一个嵌入空间,其中自然面孔聚集在中心点周围,而被操纵的面孔远离中心点。SCL的目标是最小化自然面孔的表示到中心点的距离,同时将被操纵的面孔的表示推离中心点。单中心损失(SCL):设计了一种新的损失函数,专门针对自然面部的类内变化进行压缩,同时增强类间差异,而不强制要求所有样本(包括被操纵的面部)的类内紧凑性。频率感知的判别特征学习框架(FDFL):提出了一个新颖的框架,用于学习更具有判别性的特征,以提高人脸伪造检测的准确性。

2024-06-16 22:38:49 38

原创 【 Audio-Visual】Emotions Don’t Lie: An Audio-Visual Deepfake Detection Method using Affective Cues

研究者们提取并分析了视频中两个模态——音频和视觉——之间的相似性,并且提取并比较了来自两个模态的感知情感线索,以推断视频是真实的还是伪造的。对于我们网络中的人脸和语音模式,我们分别使用了由F2和S2学习的交叉视图模式构建的250维单位归一化特征。首先,与真实视频中的数据集相比,我们的方法可能会导致两个数据集的错误分类。据研究者们所知,他们的方法是基于音频和视频模态以及两个模态中的感知情感来检测深度伪造的首次尝试。,我们的方法也可以在真实视频的模式中找到不匹配,并(错误地)将其分类为假的。

2024-06-13 16:36:55 38

原创 【AEINet+HEARNet】FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping

合成交换后的人脸需要共享目标人脸的姿态恶化表情,还要保持目标场景光照的一致性,保持交换后人脸的像素分辨率与目标图像的分辨率一致。与Nirkin等人[30,31]训练人脸分割以获得遮挡感知的人脸掩模不同,我们的方法可以在不需要任何手动注释的情况下,以自监督的方式学习恢复人脸异常区域。t是第一级交换后的面。当将相同的人脸图像作为目标和源输入到训练良好的AEI-Net中时,重建的人脸图像在多个区域偏离输入,这些偏离强烈地暗示了人脸遮挡的位置。t,它应该保留源x的身份和目标x的属性(例如姿势,表情,照明,背景)。

2024-06-09 17:45:27 38

原创 Face Forgery Detection by 3D Decomposition

其中面部纹理Ti = [Ri, Gi, Bi] T为第i顶点的反照率,Amb = diag(Ramb, Gamb, Bamb)为环境光的颜色,如图1(b)所示,ni为源自3D网格的顶点法线,l为光照方向,Dir = diag(Rdir, Gdir, Bdir)为直射光的颜色,如图1(a)所示。三维几何是底层的三维脸型,共同纹理是所有人共享的反照率模式,身份纹理是这张脸特有的反照率模式,环境光全局改变脸的颜色,直射光产生阴影。实验结果表明,从面部细节中提取的额外特征是有效的,该方法达到了最先进的性能。

2024-06-02 22:19:13 804

原创 Attention Augmented Convolutional Networks

在自动架构搜索过程中使用注意力增强作为原语,找到比之前在图像分类[55]、目标检测[12]、图像分割[6]和其他领域[5,1,35,8]中发现的更好的模型。引入了一种新的二维相对自注意机制,证明它在取代卷积作为图像分类的独立计算原语方面具有竞争力。建议通过将卷积特征映射与一组由自注意产生的特征映射连接起来,从而用这种自注意机制增强卷积算子。大量的实验表明,注意力增强可以在广泛的架构和计算设置中系统地改进图像分类和目标检测任务。卷积操作有一个明显的弱点,即它只对局部社区进行操作,从而错过了全局信息。

2024-04-22 16:49:58 466

原创 DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection

在我们的换脸上下文中,dt是MAdaIN的内容输入,yt是样式输入。我们提出了一个新的数据集,DeeperForensics-1.0,它比现有的数据集规模更大,质量更高,多样性更丰富。为了提高其质量,我们引入了一个精心设计的数据收集和一个新的框架,DF-VAE,有效地减轻了现有操纵视频的明显伪造效果。在我们的数据集上对现有代表性伪造检测方法的结果进行了基准测试,提供了对人脸伪造检测的现状和未来策略的见解。1万个经过处理的视频,加上5万个高质量的源视频,构成了提议的DeeperForensics-1.0。

2024-04-17 15:59:06 1974

原创 【FakeLocator】FakeLocator: Robust Localization of GAN-Based Face Manipulations

利用上采样的缺陷,进行伪图检测和定位引入注意力机制,面部解析,局部数据增强+单样本聚合提升跨方法的通用性伪图重构 是个点在未来的工作中,我们认为可视化每个图像中的假纹理,并根据不同的gan和上采样方法对它们进行分类是一个好主意注:本文仅供学习交流,不应用于其他,转载请标注。

2024-04-08 23:12:06 798 2

原创 【Face x-ray】Face X-ray for More General Face Forgery Detection

文章目录Face X-ray for More General Face Forgery Detection创新定义检测实验局限性结论Face X-ray for More General Face Forgery Detection会议:CVPR 2020作者:创新新的图片表示:face x-ray 只假设混合步骤的存在,不依赖于与特定面部操作技术相关的工件的任何知识输入人脸图像的人脸x射线是一幅灰度图像,反映了输入图像是否可以被分解为两幅不同来源的图像的混合通过显示伪造图像的混合边

2024-04-04 21:55:53 766 1

原创 【SPSL】Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in Frequency Domain

它可以让原本就较少(k个)的高频成分X(u,v)在卷积计算中产生更明显的影响。因此,相对于仅考虑YA(u),同时考虑YA+P(u)可以更明显地区分自然图像和合成图像在频率分布上的差异,从而提高检测性能。所以在卷积计算YA(u)时,高频成分X(u,v)对结果的影响就由A(u,v)决定,A(u,v)在高频可能已经很小。C(u)可以表示为C(u) = A(u)e^{jφ(u)},其中A(u)是幅度谱,φ(u)是相位谱。也就是说,卷积核C(u)在频域下的响应等于其幅度谱A(u)与相位谱e^{jφ(u)}的乘积。

2024-03-30 22:35:14 629

原创 论文阅读笔记——【NOLANet】DF Video Detection Based on Spatial, Spectral, and Temporal Inconsistencies

Detection(Blaze):检测面部,裁剪到128*128;Extraction(FANet):裁剪出眉毛眼睛、鼻子和唇部。NOLANet以其原始的形式从输入的视频中获取音频。

2024-03-13 23:09:16 930

原创 论文阅读笔记——【Seq-DeepFake】Detecting and Recovering Sequential DeepFake Manipulation

1.建立并开源了全球首个Seq-deepfake数据集2.可以篡改检测,还可以根据检测出的篡改序列,逆序还原出原始人脸图像3.提出了一个简单且有效的Seq-DeepFake Transformer方案。

2024-03-02 17:26:51 1734

原创 论文阅读笔记—— Multi-attentional Deepfake Detection

此外,对于不同的输入图像,我们希望每个注意图都位于固定的语义区域,例如不同图像中的注意图A1聚焦于眼睛,A2聚焦于嘴巴。这主要是因为FF++(LQ)中的视频是高度压缩的,会造成纹理信息的严重损失,这对我们的纹理增强设计是一个灾难。其中α为特征中心的更新速率,在每个训练历元后衰减α。然而,考虑到不同区域范围之间的差异,如果使用传统的全局平均池化,则池化的特征向量会受到注意图强度的影响,违背了关注纹理信息的目的。B为批大小,M为关注数,min为特征与对应的特征中心之间的余量,当yi为0和1时取不同的值。

2024-01-22 17:21:15 1156

原创 论文阅读笔记—— AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-d L

攻击强度的值(即,自由度)在图像的上方。的像素级去噪方法:基于加性的方法和未研究过的基于滤波的方法,分别在图像级和语义级的损失函数下进行实验,【结果表明:基于滤波的像素级去噪方法可以获得更高的图像质量、鲁棒性,Eq.(4)促使去噪后的图像与干净后的图像具有相同的图像质量,而Eq.(5)使I和~ I的深度特征保持一致,即CNN(·)预测I和~ I上的相同标签。基于加性的像素去噪(即(a)),基于滤波的像素去噪(即(b))以及提出的预测性扰动感知滤波(即©)的架构,用于对抗鲁棒性增强。

2024-01-10 15:52:45 1996

原创 论文阅读笔记——【DeepNotch】Dodging DeepFake Detection via Implicit Spatial-Domain Notch Filtering

重建的假图像既逼真,又具有较强的绕过SOTA假探测器的能力。提出了DeepNotch,一个通过采用深度图像滤波和噪声添加的混合方法来执行隐式空域陷波滤波的管道,以提高基于gan的假图像的保真度。在空间和频域有效地减少了现有假图像生成方法引入的伪图像模式。通过减少伪影,我们进一步重建的图像保留了照片的真实感和高保真度,可以绕过最先进的DeepFake检测方法。我们的大规模评估表明,除了利用假工件之外,应该进一步研究更通用的DeepFake检测器。

2023-11-14 10:42:51 121

原创 论文阅读笔记——【FakePolisher】FakePolisher:Making DeepFakes More Detection-Evasive by Shallow Reconstruction

本文提出了一种基于字典学习的后处理浅重构方法对伪造图像的空频域进行精细化处理。该方法不需要知道任何用于生成深度伪造图像的生成对抗网络的信息。重构图像可以轻易地欺骗现有的最先进的检测方法,从而证明了现有的检测方法是有局限性的(即高度依赖于上采样方法的缺陷)。尽管本文的方法能减弱伪造图像空频域中的伪影,但局部字典学习方法速度较慢而全局字典学习方法的域自适应性有限,因此本文尝试提出新的方法来减弱深度伪造图像空频域中的伪影。

2023-11-04 11:09:24 145

原创 论文阅读笔记——【RFM】Representative Forgery Mining for Fake Face Detection

尽管基于卷积神经网络(CNN)的普通检测器在假人脸检测上取得了令人满意的性能,但我们观察到检测器倾向于在有限的人脸区域内寻找伪造这表明检测器对伪造的理解不足。因此,我们提出了一种基于注意力的数据增强框架来指导检测器细化和扩大其注意力。具体来说,我们的方法跟踪和遮挡了Top-N敏感的面部区域,鼓励检测器深入挖掘之前忽略的区域,以获得更有代表性的伪造。特别是,我们的方法使用简单,可以很容易地与各种CNN模型集成。

2023-10-07 17:16:12 263 2

原创 论文阅读笔记——Xception: Deep Learning with Depthwise Separable Convolutions

我们提出了卷积神经网络中Inception模块的解释,作为常规卷积和深度可分离卷积操作(深度卷积之后是点卷积)之间的中间步骤。从这个角度来看,深度可分离卷积可以被理解为具有最大数量塔的Inception模块。这一观察结果使我们提出了一种受Inception启发的新型深度卷积神经网络架构,其中Inception模块已被深度可分离卷积所取代。

2023-09-14 23:07:13 506 1

原创 论文阅读笔记——Uncovering and Exploiting Hidden APIs in Mobile Super Apps

移动应用程序,特别是来自微信和抖音等社交媒体平台的应用程序,正在演变成提供即时通讯和媒体分享、电子商务、电子学习和电子政务等广泛服务的“超级应用程序”。这些超级应用程序通常为开发人员提供api,以创建在超级应用程序中运行的“小应用程序”。这些api应该经过彻底的安全审查。不幸的是,我们发现它们中的许多都是未记录且不安全的,可能允许小应用绕过限制并获得更高的特权访问。为了在被攻击者利用之前系统地识别这些隐藏的api,我们。

2023-07-27 16:21:22 762

原创 论文阅读笔记——RSGAN: Face Swapping and Editing using Face and Hair Representation in Latent Spaces

RSGAN: Face Swapping and Editing using Face and Hair Representation in Latent Spaces论文阅读笔记

2023-07-21 11:29:07 391 1

原创 2021-07-27

idea下git 错误 error: unable to read askpass response from 'C:\Users\jesslos.IntelliJIdea2019.1\system…解决方法:找到版本库所在目录的 .git 隐藏文件夹中的 config 文件,在该文件的路径上加上工程所要推送的远程仓库 github 的账号密码.打开config,在其中修改如下:...

2021-07-27 12:45:59 93

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除