Paper Reading
文章平均质量分 82
mingo_敏
这个作者很懒,什么都没留下…
展开
-
深度学习论文: Deep Learning for Unsupervised Anomaly Localization in Industrial Images: A Survey
当前,深度学习在视觉检测领域借助监督学习取得了显著成就。但在工业实践中,缺陷样本稀缺、标注成本高及先验知识不足等挑战限制了监督方法的有效性。近五年来,无监督异常定位算法在工业检测中崭露头角,应用日益广泛。本文旨在通过深度梳理工业图像无监督异常定位领域的最新深度学习研究成果,为研究者构建一条快速入门路径。我们综合分析了超过120篇核心文献,全面覆盖了该领域的核心概念、面临的挑战、分类体系、基准数据集,以及各方法的量化性能对比。原创 2024-07-08 09:23:21 · 412 阅读 · 0 评论 -
深度学习论文: VanillaNet: the Power of Minimalism in Deep Learning
提出的VanillaNet通过简化设计,避免了过度深度和复杂操作,同时采用“深度训练”策略和创新的激活函数,以提高性能,适合资源受限的环境。VanillaNet展示了在保持简洁的同时实现高效率和准确性的可能性,为神经网络设计提供了新的方向。原创 2024-06-28 08:32:52 · 358 阅读 · 0 评论 -
深度学习论文: Separable Self-attention for Mobile Vision Transformers
MobileViT是一种融合了CNN和ViT优点的混合网络,专为移动设备设计,具有较少的参数和较轻的计算负担。但其效率受限于多头自注意力(MHA)的高时间复杂度O(k^2),这在处理大量令牌时成为瓶颈。为了解决这一问题,本文提出了一种具有线性复杂度的可分离自注意力方法,通过计算与潜在令牌相关的上下文得分来简化操作,大幅降低计算成本。这种方法使用逐元素操作,适合资源受限的设备。将此方法应用于MobileViT,形成了改进版模型MobileViTv2,通过替代MHA进一步提升了推理速度。原创 2024-06-28 08:32:13 · 514 阅读 · 0 评论 -
CLIP 计算过程图解
CLIP模型是OpenAI开发的一种多模态学习模型,它通过学习文本和图像之间的关联,实现了跨模态的语义理解。原创 2024-06-26 08:41:21 · 340 阅读 · 0 评论 -
深度学习论文: Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling
本文研究了Adam等风格的优化器在深度学习任务中的使用,发现它们与传统的SGD优化器不同,最优学习率与批量大小的关系并非线性。文章首先提出了一个理论分析,证明在梯度符号的情况下,最优学习率随批量大小增加先上升后下降,并随着训练进展趋向于更大的批量。此外,当批量小于特定阈值时,Adam优化器的学习率缩放将遵循平方根规则,而SGD则遵循线性规则。通过在CV和NLP上的实验,验证了理论的正确性,并观察到随着训练的进行,最优学习率的峰值会逐渐向右移动,表明需要对超参数进行细致调整以适应不同阶段的训练需求。原创 2024-06-26 08:40:23 · 840 阅读 · 0 评论 -
深度学习论文: Depth Anything V2
Depth Anything V2通过三项关键实践实现了更精细、更稳健的单目深度估计:首先,采用合成图像替代真实标记图像,以克服标签噪声和细节缺失;其次,扩大教师模型的容量,提升性能;最后,利用大规模伪标签真实图像训练学生模型。与基于Stable Diffusion的模型相比,V2在效率和准确性上均大幅提升,速度快10倍以上。此外,V2提供了多种规模的模型,并支持一个多功能评估基准,以促进未来研究。原创 2024-06-21 09:37:37 · 898 阅读 · 0 评论 -
深度学习论文: Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
本文提出了名为Depth Anything的实用单目深度估计(MDE)方案,旨在构建能够处理各种任务环境图像的简单而强大的基础模型。方案从三个关键维度进行优化:首先,通过数据引擎实现大规模无标注数据的收集与自动标注,显著提升数据覆盖率和降低泛化误差;其次,利用数据增广工具创造更具挑战性的优化目标,增强模型对额外视觉知识的探索能力,提升特征鲁棒性;最后,设计辅助监督信息,使模型能够继承预训练Encoder中的丰富语义先验信息。原创 2024-06-21 09:05:20 · 1050 阅读 · 0 评论 -
深度学习论文: A Comprehensive Overview of Fish-Eye Camera Distortion Correction Methods
鱼眼镜头畸变校正是数字图像处理中的关键任务,旨在纠正鱼眼镜头引入的畸变并提高图像质量。在本综述中,提供了用于鱼眼镜头畸变校正的各种方法的全面概述。本文讨论了多项式畸变模型,该模型利用多项式函数来模拟和校正径向畸变。由于其简单有效,这种方法被广泛采用。此外,还探索了全景映射、网格映射、直接方法和基于深度学习的方法等替代方案。每种方法都有其优点和局限性,其适用性取决于具体的要求和限制。原创 2024-06-06 13:20:14 · 707 阅读 · 0 评论 -
深度学习论文: DINOv2: Learning Robust Visual Features without Supervision
提出一种自监督学习方法DINOv2,可在不需要微调的情况下,生成适用于各种图像分布和任务的通用视觉特征,使用精心筛选的大量图像数据进行预训练,并利用自动流程构建数据集以提高稳定性并加速训练。原创 2024-06-05 15:04:55 · 613 阅读 · 0 评论 -
深度学习论文: Emerging Properties in Self-Supervised Vision Transformers
本文探讨自监督学习是否为Vision Transformer(ViT)带来了相较于卷积网络的新特性。发现自监督ViT特征包含明确的图像语义分割信息,并展现出色的k-NN分类性能。同时,强调了动量编码器、多裁剪训练及小补丁在ViT中的重要性。基于这些发现,提出了DINO这一无标签自蒸馏方法,与ViT结合在ImageNet上实现了80.1%的top-1准确率。原创 2024-06-05 15:04:12 · 1027 阅读 · 0 评论 -
深度学习论文: Attend, Distill, Detect: Attention-aware Entropy Distillation for Anomaly Detection
无监督异常检测在工业领域至关重要,需求高吞吐和精度。早期的一类一模型方法不适用于大规模生产。提出的DCAM模块通过分布式卷积注意力机制,改善了多类异常检测中的知识蒸馏过程,有效检测不同大小的异常。DCAM仅在训练时使用,通过最小化相对熵和特征图间的相似性,实现尺度不变性和非线性关系捕获,最终提高了3.92%的性能,同时保持低时延。原创 2024-06-04 14:37:44 · 585 阅读 · 0 评论 -
深度学习论文: AnomalyDINO: Boosting Patch-based Few-shot Anomaly Detection with DINOv2
通过将DINOv2模型适应到一次性和少量异常检测中,并专注于工业应用少量异常检测。实验表明,这种方法不仅与现有技术相匹敌,甚至可以在许多设置中超越它们。我们提出的仅视觉方法AnomalyDINO基于补丁相似性,能够实现图像级别的异常预测和像素级别的异常分割。该方法在方法论上很简单,无需训练,因此不需要任何额外的数据进行微调或元学习。原创 2024-06-04 11:00:50 · 723 阅读 · 0 评论 -
深度学习论文: YOLOv10: Real-Time End-to-End Object Detection
YOLO在实时物体检测领域因计算成本与检测性能的平衡而领先。尽管研究人员在架构、优化目标和数据增强方面取得显著进展,但YOLO对NMS的依赖影响了其端到端部署和推理速度。此外,YOLO组件设计的不足导致计算冗余和性能限制。为此,YOLOv10专注于后处理和模型架构,提出了无NMS训练的一致对偶分配方法,实现高性能和低延迟。同时,YOLOv10采用效率-准确度驱动的策略,全面优化YOLO组件,降低计算成本并提高性能。原创 2024-05-27 14:47:36 · 948 阅读 · 2 评论 -
深度学习论文: UnSAMFlow: Unsupervised Optical Flow Guided by Segment Anything Model
传统的无监督光流方法容易受到遮挡和运动边界的影响,因为缺乏物体级别的信息。因此,提出了UnSAMFlow,这是一个无监督光流网络,利用了最新的基础模型Segment Anything Model(SAM)中的物体信息。它包含了一个针对SAM掩模量身定制的自监督语义增强模块。分析了传统平滑损失的梯度景观不佳,并提出了一个基于单应性的新平滑度定义。此外,还添加了一个简单但有效的掩模特征模块,以在物体级别上聚合特征。原创 2024-05-21 17:07:28 · 1051 阅读 · 0 评论 -
NVIDIA TensorRT Model Optimizer
NVIDIA TensorRT 模型优化器(ModelOpt)是一个用于优化 AI 模型的库,它通过量化和稀疏性技术减小模型大小并加速推理,同时保持模型性能。ModelOpt 支持多种量化格式和算法,包括 FP8、INT8、INT4,并提供 Python API 以实现轻松优化。它还支持后训练量化和量化感知训练。此外,ModelOpt 提供了稀疏性 API,以减少模型的内存占用,支持 NVIDIA 的稀疏模式和稀疏化方法,并推荐使用微调来最小化精度损失。原创 2024-05-13 16:51:04 · 679 阅读 · 0 评论 -
深度学习论文: LightGlue: Local Feature Matching at Light Speed
LightGlue通过自适应地应对不同难度的图像对来改进视觉匹配,包括视觉重叠程度、外观变化和辨别信息量。对于易于匹配的图像对,其推理速度更快,类似于人类处理视觉信息的方式。它通过在每个计算块后预测对应关系、让模型自我评估是否需要进一步计算,并在早期阶段丢弃不可匹配的点来优化性能。在如SLAM等典型操作条件下,LightGlue在保持性能的同时带来了显著改进,通过动态调整网络大小而非减少其整体容量。原创 2024-05-09 16:59:22 · 838 阅读 · 0 评论 -
深度学习论文: SuperPoint: Self-Supervised Interest Point Detection and Description
本文提出了一个自监督框架,用于训练适用于计算机视觉中多视图几何问题的兴趣点检测器和描述符。全卷积模型在完整图像上操作,联合计算兴趣点位置和描述符。通过引入单应性适应方法,提升兴趣点检测的重复性和跨域适应性。在MS-COCO数据集上训练后,提出的模型在HPatches上实现了最先进的单应性估计结果。原创 2024-05-08 17:08:14 · 778 阅读 · 0 评论 -
深度学习论文: Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like Speed
本文介绍了一种基于LoFTR改进的新型半稠密局部特征匹配器。作者通过重新审视设计,提出了既提升效率又增强匹配精度的改进。主要改进包括:利用局部信息的相似性,避免在完整特征图上执行Transformer,而是采用聚合注意力模块在减少的令牌上执行,从而提高了效率和性能。此外,还设计了一个两阶段相关层,解决了LoFTR中的位置差异问题,进一步提升了匹配精度。该方法相比LoFTR效率提升约2.5倍,匹配精度更高,并且作为半稠密匹配方法,其效率可与稳健的稀疏特征匹配器LightGlue相媲美。原创 2024-05-08 14:23:09 · 934 阅读 · 0 评论 -
深度学习论文: DMAD: Dual Memory Bank for Real-World Anomaly Detection
文章介绍了一种名为DMAD的新框架,用于图像异常检测。传统方法为每个对象训练一个独特的模型,但随着对象类别数量增加,这种方法导致了存储消耗的增加。UniAD采用多类设置,训练统一模型以节省存储。但无监督学习在异常检测中存在边界定义不准确的问题。利用现实世界中少量异常数据的半监督方法可提高性能。因此,作者提出DMAD框架,适用于统一半监督设置,通过双内存库处理两种情况,利用补丁特征编码器和多层感知器学习特征表示与异常分数映射,以更准确地检测异常。实验结果表明,DMAD在MVTec-AD和VisA数据集上的表现原创 2024-05-06 15:21:04 · 1324 阅读 · 0 评论 -
深度学习论文: XFeat: Accelerated Features for Lightweight Image Matching
提出了一种创新的轻量级卷积神经网络(CNN)架构,这种架构能在资源有限的平台上高效运行,并且适用于要求高吞吐量或计算效率的下游任务。其特点在于无需进行耗时的硬件特定优化。此外,XFeat作为一种灵活的解决方案,能够轻松替换现有的轻量级手工解决方案、昂贵的深度模型以及轻量级深度模型,特别在视觉定位和相机姿态估计等下游任务中展现出显著优势。原创 2024-05-06 11:39:53 · 809 阅读 · 0 评论 -
深度学习论文:Local Feature Matching Using Deep Learning: A Survey
近年来,深度学习模型的引入引发了对局部特征匹配技术的广泛探索。本文旨在全面概述局部特征匹配方法。这些方法根据是否使用检测器分为两大类。基于检测器的方法包括“先检测后描述”、联合检测与描述、“先描述后检测”以及基于图的技术。相比之下,无检测器的方法则包括基于CNN、基于Transformer和基于Patch的方法。下图展示了局部特征匹配方法的代表性时间线本文对局部特征匹配方法的划分。原创 2024-04-28 16:42:03 · 1132 阅读 · 0 评论 -
深度学习论文: SlowFast Networks for Video Recognition及其PyTorch实现
SlowFast网络是专为视频识别设计的,包含两大路径:慢速路径以较低的帧速率运行,主要用于捕获空间语义;而快速路径则以较高的帧速率运行,专门捕捉精细时间分辨率的运动信息。值得一提的是,快速路径通过精简通道容量,实现轻量级设计,并有效学习对视频识别至关重要的时间信息。这种设计使得提出的模型在视频行为分类和检测方面均表现出色。原创 2024-04-25 16:19:33 · 737 阅读 · 1 评论 -
深度学习论文: YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images及其PyTorch实现
为了应对大规模图像和物体分布不均带来的挑战,提出的YOLC框架,建立在Anchor-Free点目标检测器CenterNet的基础之上。在YOLC中,局部尺度模块(LSM)发挥了关键作用,它能够自适应地搜索并放大聚类区域,从而显著提升检测精度。此外,还引入了高斯Wasserstein距离(GWD)来优化回归损失,确保生成的边界框质量更高。在检测Head部分,YOLC巧妙地结合了可变形卷积与细化方法,进一步增强了小物体的检测能力。这些创新举措共同使得YOLC在航拍图像的目标检测任务中表现出色。原创 2024-04-24 16:41:43 · 976 阅读 · 2 评论 -
深度学习论文: MobileNetV4 - Universal Models for the Mobile Ecosystem及其PyTorch实现
专为移动设备设计的高效架构MobileNetV4(MNv4)核心在于引入了通用倒置瓶颈(UIB)搜索块和Mobile MQA注意力块,前者融合了多种技术,后者针对移动加速器优化,可大幅提升速度。同时采用了优化的神经架构搜索(NAS)方案。这一系列创新使得MNv4模型在多种设备上实现帕累托最优。此外,还引入了一种新的知识蒸馏技术,提高了模型的准确性。最终,MNv4-Hybrid-Large模型在ImageNet-1K上达到87%的准确率,同时在Pixel 8 EdgeTPU上的运行时间极短。原创 2024-04-24 11:13:57 · 2451 阅读 · 2 评论 -
深度学习论文: GhostNetV3:Exploring the TrainingStrategies for Compact Models及其PyTorch实现
本文深入研究了多种训练策略,旨在提升现有紧凑型模型的性能。这些技术涵盖了重新参数化、知识蒸馏、数据增强以及学习计划调整等方面,而无需在推断阶段对模型架构进行任何修改。值得一提的是,本文训练的GhostNetV3模型在CPU和手机平台上均经过验证,成功实现了准确性与推断成本之间的最佳平衡。原创 2024-04-23 11:41:14 · 1011 阅读 · 0 评论 -
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey
大型模型在多个领域取得了显著进展,但它们的大规模参数带来了高昂的计算成本。这些模型需要大量资源来执行,尤其是在针对特定任务进行定制时。参数有效微调(PEFT)提供了一种解决方案,它通过调整预训练模型的参数来适应特定任务,同时尽量减少额外的参数和计算资源消耗。本文对PEFT算法进行了全面研究,评估了它们的性能和计算成本,并探讨了使用这些算法的应用程序。同时,本文也讨论了降低PEFT成本的常用技术,并研究了不同系统设计中的实施成本。原创 2024-04-11 11:10:31 · 1134 阅读 · 0 评论 -
MOMENT: A Family of Open Time-series Foundation Models
MOMENT是一个用于通用时间序列分析的开源基础模型系列。由于缺少大型公共时间序列存储库、时间序列特征多样以及缺乏实验基准等挑战,预训练这些模型变得困难。因此,科研人员创建了庞大的公共时间序列集合,并解决了特定挑战以实现大规模多数据集预训练。他们还设计了一个基准来评估这些模型在有限监督设置下的性能。实验表明,预训练模型在少量数据和特定任务微调下表现有效。原创 2024-04-10 10:29:45 · 1230 阅读 · 0 评论 -
深度学习论文: Attention is All You Need及其PyTorch实现
深度学习论文: Attention is All You Need及其PyTorch实现PyTorch:大多数先进的神经序列转换模型采用编码器-解码器结构,其中编码器将输入符号序列转换为连续表示,解码器则基于这些表示逐个生成输出符号序列。在每个步骤中,模型采用自回归方式,将先前生成的符号作为额外输入来生成下一个符号。原创 2024-03-28 08:33:40 · 1749 阅读 · 1 评论 -
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
为弥补Sora不开源的缺陷,本文提出多代理框架Mora,整合先进视觉AI代理,复制Sora的全能视频生成能力。Mora能利用多视觉代理,成功模仿Sora在各种任务中的视频生成能力。原创 2024-03-22 16:03:16 · 1196 阅读 · 0 评论 -
SAM-Lightening: Lightweight Segment Anything Model with Dilated Flash Attention
通过将自注意力操作符蒸馏成具有动态层次蒸馏的Dilated Flash Attention,SAM-Lightening在图像上完成推理平均每张仅需7ms,实现了比SAM-ViT-H快30.1倍的速度提升。原创 2024-03-18 11:41:56 · 1003 阅读 · 0 评论 -
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
Sora 是一项重大突破,类似于 ChatGPT 在 NLP 领域的影响。Sora 是第一个能够根据人类指令生成长达一分钟视频的模型,同时保持较高的视觉质量和引人注目的视觉连贯性,从第一帧到最后一帧都具有渐进感和视觉连贯性。原创 2024-03-14 14:08:37 · 771 阅读 · 0 评论 -
EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
作者在对各种蒸馏策略进行深入剖析后,证实了task-agnostic的编码器蒸馏难以完全吸收SAM所掌握的全部知识。鉴于此,EdgeSAM巧妙地循环运用bbox与point提示词,并同步对提示词编码器和Mak解码器进行蒸馏,以确保蒸馏模型能够精准地掌握提示词与Mask之间错综复杂的关联。EdgeSAM是首个能在iPhone 14上以超过30 FPS运行的SAM变体。在2080Ti上,相比原生SAM,EdgeSAM推理速度快40倍;原创 2024-03-13 16:25:16 · 615 阅读 · 0 评论 -
RepViT-SAM: Towards Real-Time Segmenting Anything
RepViT-SAM延续了MobileSAM的处理方式,引入RepViT-M2.3作为图像编码器提取图像特征,以及选用了SAM-ViT-H作为老师模型进行蒸馏。原创 2024-03-13 16:23:43 · 399 阅读 · 0 评论 -
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything(EfficientSAM)
SAM 是一款具备显著实质意义的 Transformer 模型,它在庞大的 SA-1B 数据集上接受了深度训练,因此在零样本迁移与多功能性方面展现出了卓越的性能。尽管如此,由于其高昂的计算需求,SAM 的应用范围受到了一定的限制。SAMI 创新地采纳了 SAM 编码器 ViT-H 来生成特征嵌入,并通过训练轻量级编码器构建掩码图像模型。这一策略巧妙地绕过了传统的从图像补丁中重建特征的路径,转而直接从 SAM 的强大 ViT-H 中汲取特征。原创 2024-03-05 17:08:17 · 746 阅读 · 0 评论 -
深度学习论文: YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information及其PyTorch实现
首先,YOLOv9引入了革命性的可编程梯度信息(Programmable Gradient Information, PGI)技术,这一创新理念致力于解决深层神经网络中信息丢失的难题。传统的目标检测网络在传递深层信息时,经常丢失对最终预测至关重要的细节。然而,YOLOv9借助PGI技术,确保了网络在学习过程中能够维持完整的输入信息,从而获取更加可靠和精确的梯度信息,极大地提升了权重更新的准确性。这一独特的设计显著提高了目标检测的准确率,为实现实时、高精度的目标检测提供了强有力的支持。原创 2024-03-01 17:25:35 · 767 阅读 · 0 评论 -
深度学习论文: An End-to-End Trainable Neural Network for Image-based Sequence Recognition
CRNN将特征提取,序列模型和转录融合到一个统一的框架下。目前已经存在的算法的组件大多是分开训练和调整的,相比之下CRNN是可以进行端到端训练的。能够自然的处理任意长度文本,不涉及字符分割和水平尺度归一化不受限于任何预定义的词库,并且在使用词库和不使用词库的模式下都取得了较好的成过。使用高效且小的多的模型,在现实应用中更具实用性。原创 2023-11-17 16:25:19 · 197 阅读 · 0 评论 -
深度学习论文: PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network及其PyTorch实现
PGNet是一个单阶段文本spotter,,其中像素级字符分类图是通过提出的PG-CTC损失学习的,从而避免了字符级注释的使用。使用PG-CTC解码器,我们可以从二维空间中收集高级字符分类向量,并将其解码为文本符号,而无需进行NMS和RoI操作,从而确保了高效率。此外,根据每个字符及其相邻字符之间的关系,提出了一种图形细化模块(GRM),以优化粗略识别并提高端到端性能设计PGNet loss指导训练,不需要字符级别的标注不需要NMS和ROI相关操作,加速预测提出预测文本行内的阅读顺序模块;原创 2023-11-17 12:57:51 · 274 阅读 · 1 评论 -
深度学习论文: Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion
在 DBNet 中,在分割网络中直接对多尺度的特征图聚合来提高对不同尺度的鲁棒性,直接聚合缺少了对特征的选择性DBNet++ 中,作者提出了 Adaptive Scale Fusion (ASF) module,来动态聚合多尺度特征图联合优化分割网络的 DB 模块,能够获得更加鲁棒的结果并提升文本检测的效果在 infer 过程中,DB 模块可以被移除且对最终效果没有明显的影响,故在 infer 过程中不会带来额外的时间消耗ASF 模块能够给分割网络引入更鲁棒的特征。原创 2023-11-16 17:09:58 · 146 阅读 · 0 评论 -
深度学习论文: Real-time Scene Text Detection with Differentiable Binarization及其PyTorch实现
传统的文本检测算法流程是先通过网络输出文本分割的概率图,然后使用预先设定好的阈值将概率图转换为二值图,最后使用后处理操作将像素级的结果转换为检测结果。然而,这样就会使得算法性能很大程度上取决于二值化时阈值的选择。DBNet对这个流程进行了优化,对每个像素点进行自适应二值化,二值化的阈值由网络学习得到,彻底将二值化这一步骤加入到网络里一起训练,这样最终的输出图对于阈值就会非常鲁棒。原创 2023-11-16 15:42:08 · 125 阅读 · 0 评论 -
深度学习论文: PyramidFlow: High-Resolution Defect Contrastive Localization using Pyramid Normalizing Flow
最近的研究表明,在预训练特征的基础上,进一步使用归一化流来重塑特征空间的概率分布,可以使正常原型紧致化。然而,直接将现有的归一化流技术应用于高分辨率图像是不可行的,因为高分辨率图像具有很大的块方差(patch-variance)。为了解决这个问题,现有的方法结合了预训练特征,将块特征投射到低方差的高维空间中。相比低维空间,高维空间能更有效地利用归一化流来重塑概率分布。原创 2023-10-08 13:15:44 · 256 阅读 · 0 评论