Paper Reading
文章平均质量分 81
mingo_敏
这个作者很懒,什么都没留下…
展开
-
深度学习论文: DMAD: Dual Memory Bank for Real-World Anomaly Detection
文章介绍了一种名为DMAD的新框架,用于图像异常检测。传统方法为每个对象训练一个独特的模型,但随着对象类别数量增加,这种方法导致了存储消耗的增加。UniAD采用多类设置,训练统一模型以节省存储。但无监督学习在异常检测中存在边界定义不准确的问题。利用现实世界中少量异常数据的半监督方法可提高性能。因此,作者提出DMAD框架,适用于统一半监督设置,通过双内存库处理两种情况,利用补丁特征编码器和多层感知器学习特征表示与异常分数映射,以更准确地检测异常。实验结果表明,DMAD在MVTec-AD和VisA数据集上的表现原创 2024-05-06 15:21:04 · 879 阅读 · 0 评论 -
深度学习论文: XFeat: Accelerated Features for Lightweight Image Matching
提出了一种创新的轻量级卷积神经网络(CNN)架构,这种架构能在资源有限的平台上高效运行,并且适用于要求高吞吐量或计算效率的下游任务。其特点在于无需进行耗时的硬件特定优化。此外,XFeat作为一种灵活的解决方案,能够轻松替换现有的轻量级手工解决方案、昂贵的深度模型以及轻量级深度模型,特别在视觉定位和相机姿态估计等下游任务中展现出显著优势。原创 2024-05-06 11:39:53 · 284 阅读 · 0 评论 -
深度学习论文:Local Feature Matching Using Deep Learning: A Survey
近年来,深度学习模型的引入引发了对局部特征匹配技术的广泛探索。本文旨在全面概述局部特征匹配方法。这些方法根据是否使用检测器分为两大类。基于检测器的方法包括“先检测后描述”、联合检测与描述、“先描述后检测”以及基于图的技术。相比之下,无检测器的方法则包括基于CNN、基于Transformer和基于Patch的方法。下图展示了局部特征匹配方法的代表性时间线本文对局部特征匹配方法的划分。原创 2024-04-28 16:42:03 · 984 阅读 · 0 评论 -
深度学习论文: SlowFast Networks for Video Recognition及其PyTorch实现
SlowFast网络是专为视频识别设计的,包含两大路径:慢速路径以较低的帧速率运行,主要用于捕获空间语义;而快速路径则以较高的帧速率运行,专门捕捉精细时间分辨率的运动信息。值得一提的是,快速路径通过精简通道容量,实现轻量级设计,并有效学习对视频识别至关重要的时间信息。这种设计使得提出的模型在视频行为分类和检测方面均表现出色。原创 2024-04-25 16:19:33 · 688 阅读 · 1 评论 -
深度学习论文: YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images及其PyTorch实现
为了应对大规模图像和物体分布不均带来的挑战,提出的YOLC框架,建立在Anchor-Free点目标检测器CenterNet的基础之上。在YOLC中,局部尺度模块(LSM)发挥了关键作用,它能够自适应地搜索并放大聚类区域,从而显著提升检测精度。此外,还引入了高斯Wasserstein距离(GWD)来优化回归损失,确保生成的边界框质量更高。在检测Head部分,YOLC巧妙地结合了可变形卷积与细化方法,进一步增强了小物体的检测能力。这些创新举措共同使得YOLC在航拍图像的目标检测任务中表现出色。原创 2024-04-24 16:41:43 · 792 阅读 · 0 评论 -
深度学习论文: MobileNetV4 - Universal Models for the Mobile Ecosystem及其PyTorch实现
专为移动设备设计的高效架构MobileNetV4(MNv4)核心在于引入了通用倒置瓶颈(UIB)搜索块和Mobile MQA注意力块,前者融合了多种技术,后者针对移动加速器优化,可大幅提升速度。同时采用了优化的神经架构搜索(NAS)方案。这一系列创新使得MNv4模型在多种设备上实现帕累托最优。此外,还引入了一种新的知识蒸馏技术,提高了模型的准确性。最终,MNv4-Hybrid-Large模型在ImageNet-1K上达到87%的准确率,同时在Pixel 8 EdgeTPU上的运行时间极短。原创 2024-04-24 11:13:57 · 1632 阅读 · 0 评论 -
深度学习论文: GhostNetV3:Exploring the TrainingStrategies for Compact Models及其PyTorch实现
本文深入研究了多种训练策略,旨在提升现有紧凑型模型的性能。这些技术涵盖了重新参数化、知识蒸馏、数据增强以及学习计划调整等方面,而无需在推断阶段对模型架构进行任何修改。值得一提的是,本文训练的GhostNetV3模型在CPU和手机平台上均经过验证,成功实现了准确性与推断成本之间的最佳平衡。原创 2024-04-23 11:41:14 · 970 阅读 · 0 评论 -
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey
大型模型在多个领域取得了显著进展,但它们的大规模参数带来了高昂的计算成本。这些模型需要大量资源来执行,尤其是在针对特定任务进行定制时。参数有效微调(PEFT)提供了一种解决方案,它通过调整预训练模型的参数来适应特定任务,同时尽量减少额外的参数和计算资源消耗。本文对PEFT算法进行了全面研究,评估了它们的性能和计算成本,并探讨了使用这些算法的应用程序。同时,本文也讨论了降低PEFT成本的常用技术,并研究了不同系统设计中的实施成本。原创 2024-04-11 11:10:31 · 1023 阅读 · 0 评论 -
MOMENT: A Family of Open Time-series Foundation Models
MOMENT是一个用于通用时间序列分析的开源基础模型系列。由于缺少大型公共时间序列存储库、时间序列特征多样以及缺乏实验基准等挑战,预训练这些模型变得困难。因此,科研人员创建了庞大的公共时间序列集合,并解决了特定挑战以实现大规模多数据集预训练。他们还设计了一个基准来评估这些模型在有限监督设置下的性能。实验表明,预训练模型在少量数据和特定任务微调下表现有效。原创 2024-04-10 10:29:45 · 1055 阅读 · 0 评论 -
深度学习论文: Attention is All You Need及其PyTorch实现
深度学习论文: Attention is All You Need及其PyTorch实现PyTorch:大多数先进的神经序列转换模型采用编码器-解码器结构,其中编码器将输入符号序列转换为连续表示,解码器则基于这些表示逐个生成输出符号序列。在每个步骤中,模型采用自回归方式,将先前生成的符号作为额外输入来生成下一个符号。原创 2024-03-28 08:33:40 · 1722 阅读 · 1 评论 -
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
为弥补Sora不开源的缺陷,本文提出多代理框架Mora,整合先进视觉AI代理,复制Sora的全能视频生成能力。Mora能利用多视觉代理,成功模仿Sora在各种任务中的视频生成能力。原创 2024-03-22 16:03:16 · 1141 阅读 · 0 评论 -
SAM-Lightening: Lightweight Segment Anything Model with Dilated Flash Attention
通过将自注意力操作符蒸馏成具有动态层次蒸馏的Dilated Flash Attention,SAM-Lightening在图像上完成推理平均每张仅需7ms,实现了比SAM-ViT-H快30.1倍的速度提升。原创 2024-03-18 11:41:56 · 945 阅读 · 0 评论 -
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
Sora 是一项重大突破,类似于 ChatGPT 在 NLP 领域的影响。Sora 是第一个能够根据人类指令生成长达一分钟视频的模型,同时保持较高的视觉质量和引人注目的视觉连贯性,从第一帧到最后一帧都具有渐进感和视觉连贯性。原创 2024-03-14 14:08:37 · 755 阅读 · 0 评论 -
EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
作者在对各种蒸馏策略进行深入剖析后,证实了task-agnostic的编码器蒸馏难以完全吸收SAM所掌握的全部知识。鉴于此,EdgeSAM巧妙地循环运用bbox与point提示词,并同步对提示词编码器和Mak解码器进行蒸馏,以确保蒸馏模型能够精准地掌握提示词与Mask之间错综复杂的关联。EdgeSAM是首个能在iPhone 14上以超过30 FPS运行的SAM变体。在2080Ti上,相比原生SAM,EdgeSAM推理速度快40倍;原创 2024-03-13 16:25:16 · 578 阅读 · 0 评论 -
RepViT-SAM: Towards Real-Time Segmenting Anything
RepViT-SAM延续了MobileSAM的处理方式,引入RepViT-M2.3作为图像编码器提取图像特征,以及选用了SAM-ViT-H作为老师模型进行蒸馏。原创 2024-03-13 16:23:43 · 358 阅读 · 0 评论 -
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything(EfficientSAM)
SAM 是一款具备显著实质意义的 Transformer 模型,它在庞大的 SA-1B 数据集上接受了深度训练,因此在零样本迁移与多功能性方面展现出了卓越的性能。尽管如此,由于其高昂的计算需求,SAM 的应用范围受到了一定的限制。SAMI 创新地采纳了 SAM 编码器 ViT-H 来生成特征嵌入,并通过训练轻量级编码器构建掩码图像模型。这一策略巧妙地绕过了传统的从图像补丁中重建特征的路径,转而直接从 SAM 的强大 ViT-H 中汲取特征。原创 2024-03-05 17:08:17 · 699 阅读 · 0 评论 -
深度学习论文: YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information及其PyTorch实现
首先,YOLOv9引入了革命性的可编程梯度信息(Programmable Gradient Information, PGI)技术,这一创新理念致力于解决深层神经网络中信息丢失的难题。传统的目标检测网络在传递深层信息时,经常丢失对最终预测至关重要的细节。然而,YOLOv9借助PGI技术,确保了网络在学习过程中能够维持完整的输入信息,从而获取更加可靠和精确的梯度信息,极大地提升了权重更新的准确性。这一独特的设计显著提高了目标检测的准确率,为实现实时、高精度的目标检测提供了强有力的支持。原创 2024-03-01 17:25:35 · 734 阅读 · 0 评论 -
深度学习论文: An End-to-End Trainable Neural Network for Image-based Sequence Recognition
CRNN将特征提取,序列模型和转录融合到一个统一的框架下。目前已经存在的算法的组件大多是分开训练和调整的,相比之下CRNN是可以进行端到端训练的。能够自然的处理任意长度文本,不涉及字符分割和水平尺度归一化不受限于任何预定义的词库,并且在使用词库和不使用词库的模式下都取得了较好的成过。使用高效且小的多的模型,在现实应用中更具实用性。原创 2023-11-17 16:25:19 · 163 阅读 · 0 评论 -
深度学习论文: PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network及其PyTorch实现
PGNet是一个单阶段文本spotter,,其中像素级字符分类图是通过提出的PG-CTC损失学习的,从而避免了字符级注释的使用。使用PG-CTC解码器,我们可以从二维空间中收集高级字符分类向量,并将其解码为文本符号,而无需进行NMS和RoI操作,从而确保了高效率。此外,根据每个字符及其相邻字符之间的关系,提出了一种图形细化模块(GRM),以优化粗略识别并提高端到端性能设计PGNet loss指导训练,不需要字符级别的标注不需要NMS和ROI相关操作,加速预测提出预测文本行内的阅读顺序模块;原创 2023-11-17 12:57:51 · 194 阅读 · 1 评论 -
深度学习论文: Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion
在 DBNet 中,在分割网络中直接对多尺度的特征图聚合来提高对不同尺度的鲁棒性,直接聚合缺少了对特征的选择性DBNet++ 中,作者提出了 Adaptive Scale Fusion (ASF) module,来动态聚合多尺度特征图联合优化分割网络的 DB 模块,能够获得更加鲁棒的结果并提升文本检测的效果在 infer 过程中,DB 模块可以被移除且对最终效果没有明显的影响,故在 infer 过程中不会带来额外的时间消耗ASF 模块能够给分割网络引入更鲁棒的特征。原创 2023-11-16 17:09:58 · 113 阅读 · 0 评论 -
深度学习论文: Real-time Scene Text Detection with Differentiable Binarization及其PyTorch实现
传统的文本检测算法流程是先通过网络输出文本分割的概率图,然后使用预先设定好的阈值将概率图转换为二值图,最后使用后处理操作将像素级的结果转换为检测结果。然而,这样就会使得算法性能很大程度上取决于二值化时阈值的选择。DBNet对这个流程进行了优化,对每个像素点进行自适应二值化,二值化的阈值由网络学习得到,彻底将二值化这一步骤加入到网络里一起训练,这样最终的输出图对于阈值就会非常鲁棒。原创 2023-11-16 15:42:08 · 89 阅读 · 0 评论 -
深度学习论文: PyramidFlow: High-Resolution Defect Contrastive Localization using Pyramid Normalizing Flow
最近的研究表明,在预训练特征的基础上,进一步使用归一化流来重塑特征空间的概率分布,可以使正常原型紧致化。然而,直接将现有的归一化流技术应用于高分辨率图像是不可行的,因为高分辨率图像具有很大的块方差(patch-variance)。为了解决这个问题,现有的方法结合了预训练特征,将块特征投射到低方差的高维空间中。相比低维空间,高维空间能更有效地利用归一化流来重塑概率分布。原创 2023-10-08 13:15:44 · 216 阅读 · 0 评论 -
深度学习论文: EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies及其PyTorch实现
EfficientAD使用一种学生-教师的方法来检测异常特征。即训练一个学生网络来预测正常的、即无异常的训练图像的提取特征。在测试时,通过学生无法预测异常特征来实现异常检测。同时提出了一种训练损失,限制了学生模仿教师特征提取器超出正常图像的范围。这使得EfficientAD能够大大降低学生-教师模型的计算成本,同时提高对异常特征的检测能力。此外,EfficientAD还解决了检测涉及无效的正常局部特征组合的具有挑战性的逻辑异常问题,例如对象的错误排序。原创 2023-10-08 09:44:06 · 1416 阅读 · 0 评论 -
深度学习论文: Student-Teacher Feature Pyramid Matching for Anomaly Detection及其PyTorch实现
STFPM遵循学生-教师框架的优点,但在准确性和效率方面进行了大幅扩展。具体而言,STFPM使用在图像分类上经过预训练的强大网络作为教师,将其知识融入到具有相同架构的单个学生网络中。在这种情况下,学生网络通过将无异常图像的特征与预训练网络的对应特征进行匹配来学习无异常图像的分布,这一步骤的转移尽可能地保留了关键信息。此外,为了增强尺度鲁棒性,STFPM将多尺度特征匹配嵌入到网络中,这种分层特征匹配策略使得学生网络能够在更强的监督下接收来自特征金字塔的多级知识混合,并能够检测各种大小的异常。原创 2023-09-26 16:04:29 · 369 阅读 · 0 评论 -
深度学习论文: FastFlow: Unsupervised Anomaly Detection and Localization via 2D Normalizing Flows及其PyTorch实
大多数现有的基于表示的方法使用深度卷积神经网络提取正常图像特征,并通过非参数分布估计方法对相应的分布进行表征。通过测量测试图像的特征与估计分布之间的距离来计算异常分数。然而,当前的方法不能有效地将图像特征映射到可处理的基础分布,并忽略了识别异常所必需的局部和全局特征之间的关系。为此,提出了使用2D正则化流实现的FastFlow,并将其用作概率分布估计器。提出的FastFlow解决了原始的一维归一化流模型破坏了二维图像固有的空间位置关系,限制了流模型的能力,同时推断的复杂性很高,限制了实用价值等问题。原创 2023-09-26 14:18:25 · 210 阅读 · 0 评论 -
深度学习论文: Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism及其PyTorch实现
在过去的几年中,YOLO系列模型已经成为实时目标检测领域的领先方法。许多研究通过修改架构、增加数据和设计新的损失函数,将基线推向了更高的水平。然而以前的模型仍然存在信息融合问题,尽管特征金字塔网络(FPN)和路径聚合网络(PANet)已经在一定程度上缓解了这个问题。因此,本研究提出了一种先进的聚集和分发机制(GD机制),该机制通过卷积和自注意力操作实现。这种新设计的模型被称为Gold-YOLO,它提升了多尺度特征融合能力,在所有模型尺度上实现了延迟和准确性的理想平衡。原创 2023-09-22 11:32:28 · 2856 阅读 · 0 评论 -
深度学习论文: ISTDU-Net:Infrared Small-Target Detection U-Net及其PyTorch实现
深度学习论文: ISTDU-Net:Infrared Small-Target Detection U-Net及其PyTorch实现ISTDU-Net:Infrared Small-Target Detection U-NetPDF: https://doi.org/10.1109/LGRS.2022.3141584PyTorch代码: https://github.com/shanglianlm0525/CvPytorchPyTorch代码: https://github.com/shanglia原创 2023-09-20 17:01:13 · 913 阅读 · 0 评论 -
深度学习论文: PE-YOLO: Pyramid Enhancement Network for Dark Object Detection及其PyTorch实现
当前的目标检测模型在许多基准数据集上取得了良好的结果,但在暗条件下检测物体仍然是一个巨大的挑战。为了解决这个问题,我们提出了一个金字塔增强网络(PENet),并将其与YOLOv3结合起来构建一个名为PE-YOLO的暗物体检测框架。首先,PENet使用拉普拉斯金字塔将图像分解为四个不同分辨率的组件。具体来说,我们提出了一个细节处理模块(DPM)来增强图像的细节,它由上下文分支和边缘分支组成。此外,我们提出了一个低频增强滤波器(LEF)来捕捉低频语义并防止高频噪声。原创 2023-09-11 17:09:08 · 701 阅读 · 3 评论 -
深度学习论文: TurboViT: Generating Fast Vision Transformers via Generative Architecture Search及其PyTorch实现
TurboViT架构设计在三个不同位置上都采用了Q-pooling,以通过空间降维实现架构和计算效率。大部分层位于第二个Q-pooling之后。同时在TurboViT架构设计中,早期的ViT块利用了通过掩码单元注意力实现的局部注意力,而后期的ViT块则利用了全局注意力,从而在计算效率方面取得显著的收益,而在全局注意力对模型性能贡献较小的情况下并不使用全局注意力。关于TurboViT架构设计的一个特别有趣的观察是,在架构设计的开始处引入了一个隐藏的维度压缩机制,在第二个ViT块中大大减少了隐藏维度,形成了一个原创 2023-09-07 17:32:00 · 191 阅读 · 2 评论 -
深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现
EMO是高效、轻量级的模型,以在参数、FLOPs和性能之间实现平衡,适用于密集预测任务。文章从倒立残差块(IRB)和Transformer的有效组件的统一角度出发,将基于CNN的IRB扩展到基于注意力的模型,并抽象出一个用于轻量级模型设计的单残留元移动块(MMB)。EMO为轻量级模型设计提供了一个新的思路,通过将CNN和Transformer的有效组件统一起来,实现了高效的模型性能。大量实验验证了所提出的方法的有效性和优越性。原创 2023-09-07 13:58:22 · 1311 阅读 · 1 评论 -
深度学习论文: Segment Any Anomaly without Training via Hybrid Prompt Regularization
提出了一种新的框架,即Segment Any Anomaly + (SAA+),用于零样本异常分割,并通过混合提示正则化方法改善现代基础模型的适应性。现有的异常分割模型通常依赖于特定领域的微调,限制了它们在无数异常模式之间的泛化能力。将不同的基础模型进行协同组装,以利用多模态先验知识来进行异常定位。为了适应非参数基础模型在异常分割中的应用,进一步引入了从领域专家知识和目标图像上下文中派生的混合提示作为正则化手段。原创 2023-08-28 17:12:17 · 2424 阅读 · 0 评论 -
深度学习论文: WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation
WinCLIP是一种基于CLIP(Contrastive Language-Image Pretraining)模型的方法,用于零样本和少样本的异常分类和分割任务。该方法结合了文本编码器和图像编码器,利用CLIP模型的文本-图像关联能力来实现准确的异常识别和定位。WinCLIP的核心思想是通过将不同状态和模板转换为文本嵌入,然后与图像编码器生成的图像嵌入进行关联,学习到异常和正常样本之间的关系。为了实现这一目标,WinCLIP引入了参考关联的概念。原创 2023-08-22 17:24:38 · 3271 阅读 · 4 评论 -
深度学习论文: Learning Transferable Visual Models From Natural Language Supervision
CLIP(对比性语言-图像预训练)是一个在各种(图像,文本)对上进行训练的神经网络。它可以通过自然语言指令,在给定图像的情况下预测最相关的文本片段,而不是直接为任务进行优化,类似于GPT-2和GPT-3的零样本能力。发现CLIP在ImageNet的“零样本”上与原始的ResNet50的性能相匹配,而且没有使用任何原始的128万个标记示例,克服了计算机视觉中的几个重要挑战。原创 2023-08-21 10:58:17 · 183 阅读 · 0 评论 -
深度学习论文: YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
基于一系列对不同Kernel-Size卷积如何影响不同尺度上目标检测性能的研究,提出一个名为YOLO-MS的网络架构。作者在MS COCO数据集上从头开始训练YOLO-MS,而不依赖于任何其他大规模数据集,如ImageNet,或预训练权重。YOLO-MS在使用相同数量的参数和FLOPs的情况下,优于最近的最先进的实时目标检测器,包括YOLO-v7和RTMDet。从局部视角来看,设计的一个具有简单而有效的分层特征融合策略的MS-Block。原创 2023-08-17 11:39:40 · 522 阅读 · 0 评论 -
深度学习论文: A Zero-/Few-Shot Anomaly Classification and Segmentation Method for CVPR 2023 VAND Workshop
为了解决工业视觉检测中产品类型的广泛多样性,我们构建一个可以快速适应众多类别且不需要或只需要很少的正常参考图像的单一模型,为工业视觉检测提供更加高效的解决方案。提出了针对2023年VAND挑战的零/少样本跟踪的解决方案。1) 在zero-shot任务中,所提解决方案在CLIP模型上加入额外的线形层,使图像特征映射到联合嵌入空间,从而使其能够与文本特征进行比较并生成异anomaly maps。原创 2023-08-14 15:09:38 · 672 阅读 · 0 评论 -
深度学习论文: Bag of Tricks with Quantized Convolutional Neural Networks for image classification
本文对首先对PTQ量化的有效方法进行了系统地改进和优化,并在实践中建立了一个黄金准则。遵循这个准则,8位量化的模型可以达到与全精度模型相当的准确性,而无需额外的训练。此外提出了一种简单高效的量化感知训练策略,在较低精度的设置中进一步提高了准确性。最后,作者证明了量化可以与剪枝策略结合使用,并提出了一个多阶段微调的流程将它们连接在一起。原创 2023-08-10 15:38:11 · 91 阅读 · 0 评论 -
深度学习论文: RepViT: Revisiting Mobile CNN From ViT Perspective及其PyTorch实现
深度学习论文: RepViT: Revisiting Mobile CNN From ViT Perspective及其PyTorch实现RepViT: Revisiting Mobile CNN From ViT PerspectivePDF: https://arxiv.org/pdf/2307.09283.pdfPyTorch代码: https://github.com/shanglianlm0525/CvPytorchPyTorch代码: https://github.com/shangli原创 2023-08-03 11:31:13 · 2060 阅读 · 0 评论 -
深度学习论文: Pushing the Limits of Fewshot Anomaly Detection in Industry Vision: Graphcore及其PyTorch实现
当前的主流工作缺陷检测算法主要分为以下三类:a) 利用大量的训练数据作为输入来训练模型,即使对于无监督学习,数据收集具有挑战性;b) 基于Few-shot学习的方法。例如元学习,但是由于设置复杂,在切换过程中无法灵活迁移到新产品,检测精度无法保证;c) 仅使用少量正常图像作为训练数据集来检测测试样本中的异常;本文提出了一种用于 FSAD 的特征增强方法,以研究 CNN 生成的视觉特征的特性。原创 2023-08-02 14:32:19 · 486 阅读 · 1 评论 -
深度学习论文: Towards Total Recall in Industrial Anomaly Detection及其PyTorch实现
在大规模工业制造中,能够准确检测出有缺陷的零件至关重要。我们在这项工作中面临的一个特殊挑战是冷启动问题:仅使用正常的示例图像来训练模型。虽然可以针对每个类别手动设计解决方案,但我们的目标是构建能够自动适用于多个任务的系统。最佳的方法是将ImageNet模型的嵌入特征与异常检测模型结合起来。在本文中,我们在这一研究基础上进行了扩展,并提出了PatchCore,它利用了一个具有最大代表性的正常补丁特征内存库。通过这种方法,我们能够更好地解决冷启动问题,并提高系统在多任务上的性能。原创 2023-08-01 16:09:17 · 1019 阅读 · 0 评论 -
深度学习论文: SimpleNet: A Simple Network for Image Anomaly Detection and Localization及其PyTorch实现
本文提出了一种简单有效的无监督异常检测和定位方法—SimpleNet,SimpleNet由几个简单的神经网络模块组成,易于训练和应用于工业场景。虽然简单,但SimpleNet在MVtec AD基准测试中实现了最高的性能和最快的推理速度。SimpleNet使用特征适配器在目标数据集上执行迁移学习,以减轻预训练cnn的偏差。SimpleNet提出在特征空间中合成畸变,而不是直接在图像上合成畸变。SimpleNet在推理时遵循单流方式,完全由传统的CNN块构建,便于快速训练,推理和工业应用。原创 2023-07-31 15:56:52 · 806 阅读 · 0 评论