自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(180)
  • 收藏
  • 关注

原创 优质GAN模型专栏目录

(GANs, Generative Adversarial Networks)是一种深度学习架构,由生成器(Generator)和判别器(Discriminator)组成,通常用于生成逼真的数据(如图像、视频、音频等)。GANs 在多个领域中得到了广泛的应用,且其优点也使得它在很多场景中表现出色。包括生成高质量数据、无监督学习、数据增强、灵活性和适应性、高效的表示学习、创新的生成能力、对抗训练的鲁棒性该专栏主要利用Pytorch框架复现关于图像生成的GAN模型系列论文代码。

2025-02-23 10:00:00 616

原创 (论文速读)ARConv:自适应矩形卷积

(ARConv方法用于遥感图像全色锐化。传统卷积神经网络在特征提取时存在采样位置固定、采样点数量不变的局限。ARConv通过自适应学习卷积核的高度和宽度,动态调整采样点数量和位置,有效解决了多尺度特征提取问题。基于ARConv构建的ARNet在多个标准数据集上实现了最先进的性能,消融实验验证了各模块的有效性。该方法参数效率高、适应性强,为遥感图像处理提供了新的技术思路。

2025-09-11 12:06:48 766

原创 (论文速读)SCSegamba:用于结构裂纹分割的轻量级结构感知视觉曼巴

SCSegamba,一种轻量级结构感知视觉曼巴网络,用于高效精准的结构裂纹分割。针对现有方法在建模裂纹形态、平衡精度与计算效率方面的不足,该网络创新性地设计了结构感知视觉状态空间模块(SAVSS),包含轻量级门控瓶颈卷积(GBC)和结构感知扫描策略(SASS)。GBC通过低秩近似和门控机制高效建模裂纹形态,SASS采用多向蛇形扫描维持像素语义连续性。实验表明,该方法在多个基准数据集上达到SOTA性能(F1:0.8390,mIoU:0.8479),仅需2.8M参数和18.16GFLOPs计算量。

2025-09-11 12:06:11 674

原创 (论文速读)MC²: 多概念定制化图像生成的新方法

MC²,一种针对多概念定制图像生成的新方法。现有方法在处理多个用户指定概念时存在概念混合、模型兼容性差等问题。MC²通过推理时优化技术,采用多概念引导机制分析各概念的注意力区域,运用双重损失函数确保概念内一致性和概念间分离性,并能兼容不同架构的单概念模型(如DreamBooth、LoRA等)。实验表明,MC²在新构建的MC++基准测试中表现优异,在提示保真度和主体保真度方面均优于现有方法,用户调查显示78.75%的参与者更偏好MC²的结果。

2025-09-10 16:43:18 768

原创 (论文速读)ResShift:残差移位图像恢复扩散模型

ResShift,通过残差移位技术显著提升扩散模型在图像恢复任务中的效率。传统扩散模型需要数百至数千采样步骤,而ResShift仅需4步即可实现媲美SOTA的性能。其核心创新在于:1)构建从低质量到高质量图像的残差转换马尔可夫链;2)设计灵活的噪声控制方案调节变速过程;3)引入感知正则化优化结果。在超分辨率、图像修复等4类任务上的实验表明,该方法推理速度提升10倍以上(0.186秒/图),同时保持优异的PSNR(25.02)和感知质量(LPIPS 0.208)。代码已开源。

2025-09-10 16:42:00 576

原创 (论文速读)从语言模型到通用智能体

通用具身代理(GEA),通过多模态大语言模型实现跨领域任务统一处理。核心创新包括:1)设计多体验动作分词器,将异构动作统一编码为token序列;2)采用两阶段训练策略(监督学习+在线强化学习);3)实现跨领域知识迁移。实验表明,GEA在机器人操控(94.7% Meta-World)、游戏(44% Procgen专家水平)等任务中显著超越基线方法7-22%。关键发现:在线强化学习对错误恢复能力至关重要,跨域训练产生正向知识迁移。

2025-09-09 12:27:38 971

原创 (论文速读)蒸馏长尾数据集

提出了一种针对长尾数据集的有效蒸馏方法,解决了现有技术在数据不平衡场景下的性能瓶颈。研究发现,传统方法存在两个关键问题:偏梯度导致的合成数据不平衡,以及专家模型在尾类表现不佳造成的错误监督。为此,作者创新性地提出分布无关匹配和专家解耦策略,前者通过调整损失权重使模型适应长尾分布,后者将专家模型解耦为特征学习和分类决策两个独立部分。实验表明,该方法在CIFAR-10-LT等数据集上显著优于基线,最高提升达10.6%,且具有跨架构适用性。

2025-09-09 12:26:49 847

原创 (论文速读)ByTheWay:无需训练即可提升文本生成视频质量

《ByTheWay:无训练提升文本生成视频质量新方法》针对当前T2V模型存在的结构不合理、时间不连贯和运动不足三大问题,提出了一种创新解决方案。研究团队通过分析时间注意力机制,发现不同解码块间注意力图差异与质量问题相关,其能量与运动幅度正相关。

2025-09-08 09:30:17 888

原创 (论文速读)MVPortrait:文本驱动的多视角生动肖像动画技术

《MVPortrait:文本引导的多视图生动肖像动画》提出了一种创新性两阶段框架,通过FLAME 3D面部模型作为中间表示,实现文本驱动的多视角肖像动画生成。该系统采用解耦设计,分别训练运动和情感扩散模型,再通过多视图视频生成模型输出动画。实验表明,该方法在文本对齐、情感表达和多视角一致性上优于现有技术,且兼容文本、语音和视频多种驱动方式。该技术为虚拟主播、影视制作等领域提供了新的解决方案,代表了数字人动画领域的重要进展。

2025-09-08 09:28:46 1096

原创 残差去噪扩散模型

CVPR 2024论文《残差去噪扩散模型(RDDM)》提出创新性双重扩散框架,将传统扩散过程解耦为残差扩散和噪声扩散两个独立过程。该模型通过残差项明确表示图像退化方向,增强了图像恢复任务的可解释性,同时保留噪声扩散的生成能力。实验表明,RDDM使用简单UNet架构和L1损失,在图像生成和多种恢复任务(去阴影、低光增强等)上均取得具有竞争力的效果。模型支持部分路径独立的采样过程,允许灵活调整扩散系数,并提供开源代码供进一步研究。

2025-09-06 16:13:51 323

原创 (论文速读)视觉语言模型评价中具有挑战性的选择题的自动生成

AutoConverter框架将现有视觉问答(VQA)数据集自动转换为高质量多选题,以解决开放式问题评估存在的客观性不足问题。该多智能体系统通过五类错误建模生成干扰项,结合迭代优化确保正确性。实验表明其生成题目难度媲美甚至超越人工题,构建的VMCBench基准涵盖9,018道统一多选题。在评估33个前沿视觉语言模型时发现:公开模型Qwen2-VL-72B(85.0%)超越GPT-4o(80.3%),且模型性能呈现明显规模效应。该研究为可扩展、标准化的VLM评估提供了新范式。

2025-09-06 16:05:08 655

原创 (论文速读)MoManipVLA:通用移动操作的视觉语言动作模型转移

MoManipVLA,将预训练的视觉语言动作(VLA)模型迁移至移动操作领域,解决传统方法泛化能力不足的问题。通过双层优化架构:上层规划移动基座路径点以拓展操作空间,下层优化末端执行器轨迹完成具体任务。实验表明,该方法在OVMM基准上成功率提升4.2%,且仅需50个演示样本即可实现真实场景部署。该技术显著降低了移动操作机器人的训练成本,增强了跨任务跨环境的适应能力,为服务机器人实用化提供了新思路。

2025-09-05 10:34:16 694

原创 (论文速读)MobileMamba:轻量级多感受视觉Mamba网络

MobileMamba提出了一种创新的轻量级视觉模型。该研究突破传统CNN和Transformer的局限,通过三级网络架构显著提升推理速度(最快达LocalVim的21倍),并创新性地设计多感受野特征交互模块(MRFFI),集成小波变换增强高频细节提取。在ImageNet-1K上达到83.6%的Top-1准确率,同时在高分辨率下游任务中展现出卓越性能。该模型成功平衡了效率与精度,为移动端视觉处理提供了新方案。

2025-09-05 10:33:47 902

原创 (论文速读)Navigation World Models: 让机器人像人类一样想象和规划导航路径

NavigationWorldModel(NWM),一种基于条件扩散变换器(CDiT)的可控视频生成模型,能够通过视觉观测和导航动作预测未来场景。该模型在10亿参数规模下训练,融合多模态机器人及人类自我中心视频数据。NWM突破性地实现了三项能力:(1)动态整合新约束条件而无需重新训练;(2)通过视觉模拟评估候选路径;(3)从单幅图像预测未知环境轨迹。

2025-09-04 11:14:33 971

原创 (论文速读)VGGT: 视觉几何接地变压器

VGGT提出了一种基于Transformer的统一神经网络框架,能够直接从单张或多张图像中推断出场景的所有关键3D属性(相机参数、点云、深度图和3D轨迹)。该方法突破了传统3D重建方法需要复杂几何优化和任务特化的限制,采用交替注意力机制和超完备预测策略,在保持高效推理(1秒内完成重建)的同时,在多个3D任务上达到SOTA性能。实验表明,VGGT不仅显著优于传统优化方法,作为预训练特征提取器还能有效提升下游任务表现。该工作为3D计算机视觉开辟了从几何优化到神经推理的新范式,具有重要的理论价值和实际应用前景。

2025-09-04 11:13:21 1305

原创 (论文速读)FlipSketch - 让静态草图“活“起来的魔法

FlipSketch: 文本引导的静态草图动画生成系统 摘要: FlipSketch提出了一种将静态草图转化为文本引导动画的创新系统。该方法基于三个关键技术:1)针对草图风格的模型微调;2)通过噪声细化保持原始草图特征的参考帧机制;3)确保运动流畅性的双重注意力组合。相比传统需要精确运动路径指定的动画方法,FlipSketch只需输入草图和简单文本描述即可生成动态效果。实验显示系统在保持95.6%草图一致性的同时,显著提升了17.2%的文本对齐度。该系统突破性地降低了动画制作门槛,同时保留了手绘艺术的本质特

2025-09-03 11:18:22 1330

原创 (论文速读)混合特征增强网络:让少样本语义分割更精准

该文提出了一种混合特征增强网络(HFE)用于少量样本语义分割任务。该方法创新性地引入纹理增强模块(TEM)来丰富特征表示,将纹理信息与ResNet提取的CNN特征相结合形成混合特征,从而增强对物体边缘和细节的分割能力。同时设计了自适应损失机制(AL)来平衡训练过程中的样本差异,提升模型稳定性。实验在PASCAL-5i、COCO-20i和FSS-1000三个数据集上验证了有效性,在1-shot和5-shot设置下均取得性能提升。该方法为少样本分割任务提供了特征融合的新思路,具有重要的应用价值。

2025-09-03 11:17:21 630

原创 (论文速读)FINECAPTION:合成图像字幕专注于任何你想在的粒度

FINECAPTION:基于掩码感知和多分辨率融合的细粒度图像描述模型 摘要:本研究针对现有视觉语言模型在细粒度区域理解和组合特征描述上的不足,提出FINECAPTION创新框架。该模型通过掩码感知编码技术(将掩码作为第四通道)实现精确区域定位,并采用多分辨率编码器融合(336×336+1024×1024)捕获不同粒度特征。配套构建的COMPOSITIONCAP数据集包含5,392张图像和186,490个属性描述,涵盖18种组合属性。

2025-09-02 10:19:42 999

原创 (论文速读)EVSSM-用于图像去模糊的视觉状态空间模型

本文提出了一种高效的视觉状态空间模型EVSSM用于图像去模糊,解决了传统方法在计算效率和性能上的两难问题。EVSSM通过几何变换结合单向扫描的创新设计,在保持ViTs全局建模能力的同时显著降低计算复杂度。模型采用交替的翻转/转置变换和1D卷积增强参数学习,并设计了高效的频域前馈网络EDFFN。实验表明,EVSSM在GoPro和RealBlur等基准测试中PSNR和SSIM均优于现有方法,同时计算成本仅为SSM方法的1/4。

2025-09-02 10:19:16 735

原创 (论文速读)BlenderGym:图形编辑的基准基础模型系统

BlenderGym,首个针对3D图形编辑的视觉语言模型(VLM)基准测试系统。该平台通过245个基于代码的3D重建任务评估VLM在物体放置、几何编辑等5个核心领域的表现。研究发现:1)当前VLM与人类Blender用户存在显著差距;2)推理时间缩放不仅提升生成器性能,还能优化验证器效果;3)计算资源在生成与验证间的最优分配比例随预算变化。实验评估了13个主流VLM,揭示了代码生成与视觉差异不匹配等关键失败模式。该研究为3D图形编辑AI提供了标准化评估框架,并提出了计算资源优化策略。

2025-09-01 10:36:32 1235

原创 (论文速读)3DTopia-XL:高质量3D资产生成技术

3DTopia-XL,一种基于原始扩散的可扩展3D生成模型,通过创新PrimX表示法将3D形状、纹理和材质编码为紧凑张量,结合分层扩散架构实现高质量3D资产的高效生成。相比现有方法,3DTopia-XL在生成速度(1.5分钟/模型)、几何精度(Chamfer Distance降低82%)和物理渲染质量上均有显著提升,支持文本/图像到具有PBR属性的3D内容转换。实验表明其性能优于主流方法,能直接输出影视级3D资产,为游戏、VR等行业提供实用化解决方案。

2025-09-01 10:36:03 833

原创 (论文速读)NeRF: 用神经辐射场重新定义视图合成

NeRF(神经辐射场)提出了一种创新方法,将3D场景表示为连续5D坐标(空间位置+视角方向)到颜色和密度的神经函数映射,通过可微分体渲染实现高质量新视角合成。该方法利用位置编码捕获高频细节、层次化采样优化计算,仅需稀疏输入视图即可生成复杂场景的逼真渲染,在PSNR等指标上显著优于传统方法。尽管存在计算成本高的局限,NeRF开创了神经场景表示的新范式,为计算机视觉和图形学带来突破性进展,其5MB的紧凑模型大小相比传统方法实现了3000:1的存储效率提升。

2025-08-30 08:32:39 1053

原创 3D生成模型-NeRF:用神经辐射场定义视图合成

NeRF(神经辐射场)重建自己的三维视图。

2025-08-30 08:32:12 108

原创 (论文速读)MAPTNet——少样本表面缺陷分割方法

《基于多尺度自适应变压器网络的钢带表面缺陷分割》提出MAPTNet方法解决少样本钢带缺陷分割难题。该方法创新性地结合自适应原型变压器模块和分层特征融合策略,通过多头注意力机制动态生成原型,实现多尺度特征提取与融合。在FSSD-12等数据集测试中,该方法将VGG-16骨干网络的one-shot MIoU从39.9%提升至65.1%,显著优于现有技术。该方案有效应对工业场景中数据稀缺和缺陷复杂性问题,为智能制造质量检测提供新思路。

2025-08-29 13:33:38 786

原创 (论文速读)RADIOv2.5:聚合式视觉基础模型

RADIOv2.5,一种改进的凝聚视觉基础模型,通过多教师蒸馏整合CLIP、DINO和SAM等模型优势。针对现有方法的四大挑战(分辨率模式转换、教师不平衡、特异性伪影和Token爆炸),提出创新解决方案:多分辨率训练策略消除模式转换,马赛克数据增强降低计算成本,PHI-S教师损失平衡技术均衡教师贡献,ToMe Token压缩技术优化视觉语言模型效率。实验表明,RADIOv2.5在多个基准测试中显著超越基线模型,支持256²到1024²的灵活分辨率输入,为构建通用视觉基础模型提供了新思路。

2025-08-29 13:29:10 821

原创 (论文速读)Positive2Negative: 突破自监督单图像去噪的信息损失障碍

该论文提出一种新型自监督单图像去噪方法Positive2Negative(P2N),突破了现有Noise2Noise和Noise2Void方法因下采样和掩蔽等操作导致的信息损失障碍。该方法包含两个关键创新:1)重新噪声数据构建(RDC),利用预测噪声对称性生成多组噪声图像而不丢失信息;2)去噪一致性监督(DCS),通过约束不同噪声图像去噪结果的一致性实现鲁棒学习。实验表明,P2N在SIDD等基准测试中PSNR指标提升0.4dB以上,同时训练效率显著提高(仅需100次迭代)。

2025-08-28 13:11:37 1279

原创 (论文速读)StarGen:视频扩散模型的时空自回归框架

StarGen提出了一种基于视频扩散模型的时空自回归框架,用于长距离、高一致性的场景生成。该框架创新性地采用时空双重条件化机制,既考虑时间相邻性又保持空间一致性,通过预训练模型实现稀疏视图插值、持续视图生成等多种任务。实验表明StarGen在保真度、姿态精度和可扩展性上优于现有方法,为VR/AR、影视制作等应用提供了新工具。当前局限包括大循环处理能力不足,未来将探索全局约束和3D重建集成等方向。

2025-08-28 13:11:05 644

原创 (论文速读)SigNet:深度补全的退化感知选择性图像引导网络

本文提出SigNet,一种新颖的深度补全方法,将问题重新定义为深度增强任务。SigNet突破性地采用两阶段策略:先通过非CNN方法生成粗糙深度图,再建立自监督退化模型进行增强。其核心创新在于退化感知选择性RGB-D融合机制,通过动态选择RGB高频信息补偿深度图,并集成多模态条件Mamba实现高效全局交互。实验表明,SigNet在NYUv2等四个数据集上均取得SOTA性能,同时显著降低计算成本(参数量仅3.3M)。该方法为深度补全提供了新思路,在自动驾驶、AR/VR等领域具有广泛应用潜力。

2025-08-27 13:53:03 948

原创 (论文速读)OWOBJ:开放世界目标检测的物体性建模

本文提出OWOBJ模型,通过变分近似建模物体与类别的联合分布,解决开放世界目标检测中的误分类问题。研究发现静态高斯先验在低数据场景下会导致KL散度不收敛,进而提出动态高斯先验和基于能量的边界损失来提升性能。实验表明,该方法在COCO等数据集上显著提高了未知物体召回率(提升5.3%-19.4%)并降低误分类率,同时适用于Few-Shot和零样本检测任务。OWOBJ作为即插即用模块,为自动驾驶等开放环境应用提供了更鲁棒的物体检测方案。

2025-08-27 13:52:23 750

原创 (论文速读)Prompt Depth Anything:让深度估计进入“提示时代“

通过低成本LiDAR作为度量提示引导DepthAnything模型实现精确的4K深度估计。核心贡献包括:1)设计多尺度LiDAR提示融合架构,仅增加5.7%计算开销;2)构建可扩展数据管道,结合合成LiDAR模拟与真实数据伪GT生成;3)在ARKitScenes和ScanNet++数据集上取得SOTA性能(L1误差提升12-23%),显著提升3D重建和机器人抓取效果。

2025-08-26 13:58:00 1030

原创 (论文速读)MBQ:大型视觉语言模型的模态平衡量化

通过实验发现,语言标记的敏感性是视觉标记的12倍,传统量化方法忽视这一差异导致精度下降。MBQ创新性地将模态敏感性纳入量化目标函数,通过数学建模自动计算最优权重。实验表明,在7B至70B规模的VLMs上,W3A16和W4A8量化分别带来4.4%和11.6%的精度提升。研究还开发了专用GPU内核,实现1.4倍加速。

2025-08-26 13:56:37 1184

原创 (论文速读)FloVD:光流遇见视频扩散模型,开启相机控制视频生成

FloVD:光流与视频扩散模型融合实现精准相机控制视频生成 CVPR 2025论文提出创新视频生成框架FloVD,通过光流技术解决现有视频扩散模型在相机控制方面的局限性。该框架采用两阶段处理流程:首先利用光流精确表示相机和物体运动,再基于流条件合成视频。核心创新包括:1)无需真实相机参数,直接从视频估计光流;2)背景光流编码3D相关性实现精确相机控制;3)独立物体运动合成模块生成自然前景运动。

2025-08-25 11:07:11 1315

原创 (论文速读)FrugalNeRF:极少样本下的高效3D场景重建

《FrugalNeRF:无学习先验的极端少样本新视角合成快速收敛方法》提出了一种创新解决方案,用于解决神经辐射场(NeRF)在极少量输入图像(2-4张)时的过拟合和训练效率问题。该研究通过权重共享多尺度体素表示和跨尺度几何自适应机制,实现了不依赖外部预训练模型的高效3D重建。实验表明,FrugalNeRF在LLFF和DTU数据集上PSNR分别达到18.07和19.72,同时将训练时间从数小时缩短至6-10分钟,显著提升了极少量样本场景下的重建质量和效率。

2025-08-25 11:06:40 1030

原创 RandAR训练自己的数据集

RandAR:随机顺序下仅解码器的自回归视觉生成。一种突破性的仅解码器自回归视觉生成模型,能够以任意顺序生成图像。通过引入位置指令标记和随机排列训练策略,RandAR消除了传统模型对预定义生成顺序的依赖,实现了更灵活的视觉生成。该方法在保持与传统光栅顺序相当生成质量的同时,解锁了多项新能力:2.5倍加速的KV-Cache并行解码、零样本图像修复与绘制、分辨率外推等。实验表明,RandAR为解码器视觉生成模型开辟了新方向,显著拓宽了应用场景。

2025-08-24 23:02:25 186

原创 (论文速读)OverLoCK -上下文混合动态核卷积

【摘要】本文提出OverLoCK,一种创新卷积神经网络架构,首次将人类视觉的"先概览后细看"机制引入纯ConvNet设计。该模型采用三子网络结构:基础网络处理低中层特征,轻量级概览网络生成全局上下文,焦点网络执行注意力引导的细粒度分析。核心创新是上下文混合动态卷积(ContMix),有效结合长程依赖建模与局部归纳偏置。实验表明,OverLoCK-T在ImageNet-1K达到84.2%准确率,仅用ConvNeXt-B三分之一的计算量;在目标检测和语义分割任务上也显著领先现有方法。

2025-08-23 13:55:14 1141

原创 (论文速读)CLIP-Event:让AI真正“看懂“图像中的事件故事

在人工智能快速发展的今天,让机器像人类一样理解图像和文本的关系一直是一个核心挑战。虽然CLIP等视觉-语言预训练模型在这方面取得了显著进展,但它们在理解图像中的事件和动作方面仍存在明显缺陷。

2025-08-23 13:54:55 1059

原创 (论文速读)并行自回归视觉生成

本文提出了一种并行化自回归视觉生成方法(PAR),通过分析视觉token的依赖关系区分可并行生成的区域,在保持生成质量的同时显著提升效率。该方法将图像划分为多个区域,先顺序生成初始token建立全局结构,再并行生成弱依赖的远距离token。实验显示,在ImageNet和UCF-101数据集上分别实现3.6-9.5倍和3.8-12.6倍的加速,且质量下降极小。该方法无需修改模型架构,为高效视觉生成提供了新思路。

2025-08-22 16:00:22 829

原创 (论文速读)RandAR:突破传统限制的随机顺序图像自回归生成模型

RandAR:突破传统顺序约束的视觉生成新范式 本文提出RandAR模型,一种能够在随机顺序下生成图像的仅解码器自回归模型。通过引入"位置指令标记"的创新设计,RandAR打破了传统自回归模型必须遵循固定生成顺序的限制。模型在训练时处理随机排列的标记序列,展现出与光栅顺序相当的性能。更令人瞩目的是,RandAR获得了多项零样本能力:采用KV-Cache实现2.5倍加速的并行解码、支持图像绘制与分辨率外推等任务。实验表明,RandAR在保持生成质量的同时,显著提升了推理效率。

2025-08-22 16:00:03 1199

原创 (论文速读)Logits DeConfusion-CLIP少样本学习

本文针对CLIP在少样本学习中的类间混淆问题,提出了LogitsDeConfusion(LDC)方法。该方法通过多级适配器融合(MAF)模块增强特征表示,并利用类间去混淆(ICD)模块学习消除logits中的混淆模式。实验表明,LDC在11个数据集上平均提升3.6%准确率,尤其在16-shot设置下达到79.78%。消融研究验证了ICD模块的关键作用。该方法为改进CLIP的少样本学习性能提供了新思路,同时显著降低了数据标注成本。

2025-08-21 14:34:23 1038

原创 (论文速读)TDAD:基于两阶段扩散模型的工业异常检测

TDAD:基于两阶段扩散模型的自监督工业异常检测 本文提出了一种新型的自监督工业异常检测框架TDAD,通过创新的两阶段扩散模型有效解决了传统方法在异常检测中面临的挑战。TDAD框架包含三个核心模块:异常合成模块通过多尺度掩码和纹理变换生成逼真异常样本;两阶段扩散重建模块分别处理语义保持和细节重建;缺陷分割模块利用多尺度特征融合实现精确的异常定位。实验表明,TDAD在MVTec和VisA等基准数据集上实现了最先进的性能,图像级AUROC达到99.4%,像素级AUROC达98.6%,显著优于现有方法。该框架的端

2025-08-21 14:33:09 685

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除