- 博客(689)
- 资源 (13)
- 收藏
- 关注
转载 PyTorch Cookbook(常用代码段整理合集)
本文代码基于PyTorch 1.0版本,需要用到以下包import collectionsimport osimport shutilimport tqdmimport numpy as npimport PIL.Imageimport torchimport torchvision1 基础配置1-1 检查PyTorch版本torch.__version__ ...
2019-04-27 15:58:29 2910 4
原创 Linux常见命令汇总
Linux下统计当前文件夹下的文件个数、目录个数统计当前文件夹下文件的个数,包括子文件夹里的ls -lR|grep "^-"|wc -l统计文件夹下目录的个数,包括子文件夹里的ls -lR|grep "^d"|wc -l统计当前文件夹下文件的个数ls -l |grep "^-&quot
2018-12-06 11:08:08 1590 11
原创 本博客目录及版权申明
【C++ Primer 学习笔记】系列:第一部分 基本语言第二部分 容器和算法 【C++ Primer 学习笔记】: 容器和算法之【顺序容器】 【C++ Primer 学习笔记】: 容器和算法之【关联容器】 【C++ Primer 学习笔记】: 容器和算法之【泛型算法】第三部分 类和数据抽象第四部分 面向对象编程与泛型算法第五部分 高级主题【Java: 23种设计模式】系列 Java: 23
2015-11-25 17:37:30 1487 1
原创 基于深度学习的药品三期OCR字符识别
哪吒开发套件以信用卡大小的哪吒开发板为核心,采用英特尔®处理器N97(Alder Lake-N),支持四核SoC,时钟频率高达3.60GHz,TDP仅为12W。内置GPU支持高分辨率显示,并具备强大的AI推理能力,是进行深度学习模型推理的理想平台。哪吒开发板还配备了高达8GB的LPDDR5系统内存和64GB的eMMC存储,支持Windows和Linux操作系统,为开发者提供了灵活的开发环境。
2024-09-19 11:36:52 482
原创 深度学习论文: AnomalousPatchCore: Exploring the Use of Anomalous Samples in Industrial Anomaly Detection
PatchCore包含三个主要阶段:特征提取:使用预训练的ResNet-50等特征提取器从训练集的正常样本中提取特征,但不进行微调。选择ResNet-50的第三和第四阶段的输出,以获取语义丰富的图像表示。块提取:从合并的特征图中提取局部块,以实现平移不变性。通过平均池化在预定义大小的邻域上聚合特征,形成局部感知的块特征,并存储在正常样本的记忆库中。推理加速:在推理阶段,使用相同的特征提取器处理测试样本,并创建测试块。通过计算测试块与记忆库中最近块的距离来分配异常分数,并生成异常图。
2024-09-12 17:09:57 48
原创 yolov8-obb中存在的一个bug
cv2.minAreaRect() 函数返回一个 RotatedRect 对象 rect,该对象包含三个要素:中心坐标 (x, y)、尺寸 (w, h)(其中 w 和 h 分别代表矩形的宽度和高度,但并非基于长短定义,而是基于方向),以及旋转角度 angle(表示矩形相对于水平轴逆时针旋转的角度)。这里尤其要注意的是 旋转角度θ是水平轴(x轴)逆时针旋转,与碰到的矩形的第一条边的夹角。即训练数据如果包含不带旋转角度的水平目标时,训练出的模型,经常会输出垂直的检测框,需要旋转90度以后才能得到最终结果。
2024-09-12 09:31:57 584
原创 Byte Pair Encoding(BPE)算法原理以及其python实现
Byte Pair Encoding(BPE)是一种基于统计的压缩算法,最初由Gage于1994年在“A New Algorithm for Data Compression”一文中提出。尽管其初衷是用于数据压缩,但随着自然语言处理(NLP)的发展,BPE被广泛应用于词汇表构建和分词任务中,尤其是在处理形态丰富的语言时表现尤为出色。BPE通过迭代地合并文本语料库中最频繁的相邻字符对,生成子词单元(subword units),从而以更紧凑和高效的方式表示原始文本。
2024-08-29 16:26:38 276
原创 深度学习论文: Sapiens: Foundation for Human Vision Models
Meta Reality Labs 隆重推出的Sapiens模型系列,是一套前沿的人工智能解决方案,专注于深化人类对视觉任务的理解与处理能力。这一系列模型精心打造,旨在高效应对四大核心视觉挑战:2D姿态估计、身体部位精准分割、深度信息的精确估计以及表面法线的准确预测。Sapiens的卓越之处在于其原生支持高达1K分辨率的高清推理能力,这一特性让模型在处理复杂细腻、细节丰富的图像时展现出非凡的性能,为用户带来前所未有的视觉体验。
2024-08-28 16:16:33 167
原创 深度学习论文: Evaluating SAM2’s Role in Camouflaged Object Detection: From SAM to SAM2
Meta AI推出的Segment Anything Model(SAM)作为通用目标分割模型,引领了图像分割技术的革新。随后,SAM2应运而生,这一统一模型不仅保留了SAM的图像分割能力,更将功能扩展至视频领域。SAM2在适用领域、分割准确度和运行速度上均有显著提升,但本报告指出,在自动模式下,SAM2识别图像中不同目标的能力相比SAM有所下降。这一发现基于伪装目标检测任务的评估,显示SAM2在特定任务上仍有优化空间。
2024-08-06 09:50:06 107
原创 深度学习论文: SAM 2: Segment Anything in Images and Videos
SAM 2架构的推出标志着SAM(Segmentation with A Million examples)技术从静态图像领域向动态视频领域的重大跨越。这一升级不仅保留了SAM在图像分割中的高效与准确性,还通过一系列创新设计,使得SAM 2能够灵活应对视频中的复杂场景与动态变化。在SAM 2中,用户可以通过点击、边界框或掩码等多样化的交互方式,在视频的任一给定帧中精确定义目标对象的范围。随后,一个轻量级的掩码解码器利用当前帧的图像特征与编码后的用户提示,迅速输出该帧的精细分割掩码。
2024-07-31 14:38:15 301
原创 python 对 xxx.pt或者xxx.pth文件加密和解密
在Python中,直接对.pt或.pth(PyTorch模型文件)进行加密和解密通常不是直接由PyTorch库本身支持的,因为这些文件主要是用于存储模型的权重和参数,而不是设计为加密存储。然而,你可以通过读取这些文件的内容,使用Python的加密库(如cryptography)来加密这些内容,然后将加密后的数据存储到新的文件中。解密过程则相反,从加密的文件中读取内容,解密后再保存到原始格式的文件中。
2024-07-22 10:15:14 314
原创 Large Language Model系列之三:大模型并行训练(Parallel Training of Large Language Models)
Large Language Model系列之三:大模型并行训练(Parallel Training of Large Language Models)
2024-07-19 15:54:03 620
原创 深度学习论文: Raising the Ceiling: Conflict-Free Local Feature Matching with Dynamic View Switching
目前的特征匹配方法主要致力于提升模型的匹配能力,以更精确地接近理论最佳匹配结果,即所谓的“上限”。但这些改进并未解决影响真实匹配效果的根本问题,例如小尺寸图像中匹配点的缺乏、密集匹配方法中的冲突,以及稀疏匹配方法对关键点可重复性的依赖。动态视图切换:通过策略性地交换图像对,解决源图像中匹配点不足的问题。无冲突粗匹配:采用多对一的匹配策略,减少目标图像中的匹配冲突。半稀疏与粗到细架构:结合这两种方法,既保持了高效率,又实现了全局搜索,降低了对关键点可重复性的依赖。
2024-07-19 15:52:54 504
原创 Large Language Model系列之二:Transformers和预训练语言模型
Large Language Model系列之二:Transformers和预训练语言模型。
2024-07-16 09:22:33 963
原创 Large Language Model系列之一:语言模型与表征学习(Language Models and Representation Learning)
语言模型与表征学习(Language Models and Representation Learning)
2024-07-16 08:50:33 956
原创 深度学习论文: XFeat: Accelerated Features for Lightweight Image Matching
本文创新性地推出了XFeat(加速特征),一种轻量级且高精度的CNN架构,专为资源受限的视觉任务设计。XFeat优化了局部特征的检测、提取与匹配,通过减少通道数同时保持高分辨率,实现了速度与精度的平衡。它提供灵活的半密集匹配选项,并引入创新的匹配细化模块,利用粗糙描述符提升匹配精度,无需额外高分辨率特征,显著降低了计算成本。XFeat通用性强,硬件无关,速度远超同类深度学习模型,且能在普通CPU上实时运行,展现了在视觉定位和姿态估计等任务中的卓越性能。
2024-07-15 15:53:10 1433
原创 深度学习论文: MobileSAMv2: Faster Segment Anything to Everything
SAM模型应对两大分割任务的挑战:SegAny,针对单一感兴趣对象的分割;SegEvery,负责图像中所有对象的分割。SAM在SegAny任务上的效率问题已通过MobileSAM的知识蒸馏技术得到优化。然而,SegEvery任务的效率瓶颈在于其掩码解码器,这一问题通过直接生成有效掩码的方式得到改进,避免了冗余的网格搜索和后续过滤步骤。
2024-07-12 16:07:19 654
原创 深度学习论文: YOLOv5, YOLOv8 and YOLOv10: The Go-To Detectors for Real-time Vision
本文全面回顾了 YOLO(You Only Look Once)目标检测算法的演进,重点关注了 YOLOv5、YOLOv8 和 YOLOv10。我们分析了这些版本在架构进步、性能提升以及边缘部署适用性方面的情况。YOLOv5 引入了 CSPDarknet 主干和马赛克增强等重大创新,平衡了速度和准确性。YOLOv8 在此基础上通过增强特征提取和无锚点检测,提高了通用性和性能。YOLOv10 通过无NMS训练、空间-通道解耦下采样和大核心卷积等特性,实现了跨越式进步,达到了最先进的性能,同时减少了计算开销。
2024-07-12 11:20:59 1553
原创 深度学习论文: Efficient Modulation for Vision Networks
本文提出高效调制,一种新颖的高效视觉网络设计。重新审视调制机制,通过卷积上下文建模和特征投影层处理输入,融合特征时采用逐元素乘法与MLP块。实验表明,调制机制适合高效网络,通过高效调制(EfficientMod)块定制设计,成为网络的基本构建块。该设计在精度与效率间实现良好权衡,刷新高效网络性能。结合基本自注意力块,性能进一步提升且效率不变。实验验证EfficientMod性能卓越,参数更少情况下,相比EfficientFormerV2-s2,准确率提升0.6%(top-1),GPU速度快25%;与Mobi
2024-07-11 14:41:39 962
原创 深度学习论文: LLaMA: Open and Efficient Foundation Language Models
本文介绍了LLaMA,这是一系列基础而先进的语言模型,其参数规模横跨7亿至65亿不等,展现了强大的语言处理能力。研究表明,通过大规模公开数据的训练,LLaMA系列模型成功打破了对专有或受限数据集的依赖,达到了业界最前沿(SOTA)的性能水平。本研究的核心目标是通过显著增加训练中的token数量,开发出在不同推理场景下均能展现出卓越性能的语言模型。LLaMA模型家族以其多样的参数配置,为语言模型领域带来了新的竞争力量。
2024-07-10 11:27:18 1733 1
原创 深度学习论文: Deep Learning for Unsupervised Anomaly Localization in Industrial Images: A Survey
当前,深度学习在视觉检测领域借助监督学习取得了显著成就。但在工业实践中,缺陷样本稀缺、标注成本高及先验知识不足等挑战限制了监督方法的有效性。近五年来,无监督异常定位算法在工业检测中崭露头角,应用日益广泛。本文旨在通过深度梳理工业图像无监督异常定位领域的最新深度学习研究成果,为研究者构建一条快速入门路径。我们综合分析了超过120篇核心文献,全面覆盖了该领域的核心概念、面临的挑战、分类体系、基准数据集,以及各方法的量化性能对比。
2024-07-08 09:23:21 954
原创 深度学习论文: VanillaNet: the Power of Minimalism in Deep Learning
提出的VanillaNet通过简化设计,避免了过度深度和复杂操作,同时采用“深度训练”策略和创新的激活函数,以提高性能,适合资源受限的环境。VanillaNet展示了在保持简洁的同时实现高效率和准确性的可能性,为神经网络设计提供了新的方向。
2024-06-28 08:32:52 435
原创 深度学习论文: Separable Self-attention for Mobile Vision Transformers
MobileViT是一种融合了CNN和ViT优点的混合网络,专为移动设备设计,具有较少的参数和较轻的计算负担。但其效率受限于多头自注意力(MHA)的高时间复杂度O(k^2),这在处理大量令牌时成为瓶颈。为了解决这一问题,本文提出了一种具有线性复杂度的可分离自注意力方法,通过计算与潜在令牌相关的上下文得分来简化操作,大幅降低计算成本。这种方法使用逐元素操作,适合资源受限的设备。将此方法应用于MobileViT,形成了改进版模型MobileViTv2,通过替代MHA进一步提升了推理速度。
2024-06-28 08:32:13 603
原创 深度学习论文: Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling
本文研究了Adam等风格的优化器在深度学习任务中的使用,发现它们与传统的SGD优化器不同,最优学习率与批量大小的关系并非线性。文章首先提出了一个理论分析,证明在梯度符号的情况下,最优学习率随批量大小增加先上升后下降,并随着训练进展趋向于更大的批量。此外,当批量小于特定阈值时,Adam优化器的学习率缩放将遵循平方根规则,而SGD则遵循线性规则。通过在CV和NLP上的实验,验证了理论的正确性,并观察到随着训练的进行,最优学习率的峰值会逐渐向右移动,表明需要对超参数进行细致调整以适应不同阶段的训练需求。
2024-06-26 08:40:23 913
原创 c#调用c++生成的dll,c++端使用opencv, c#端使用OpenCvSharp, 返回一张图像
c#调用c++生成的dll,c++端使用opencv, c#端使用OpenCvSharp, 返回一张图像
2024-06-21 15:19:06 302
原创 深度学习论文: Depth Anything V2
Depth Anything V2通过三项关键实践实现了更精细、更稳健的单目深度估计:首先,采用合成图像替代真实标记图像,以克服标签噪声和细节缺失;其次,扩大教师模型的容量,提升性能;最后,利用大规模伪标签真实图像训练学生模型。与基于Stable Diffusion的模型相比,V2在效率和准确性上均大幅提升,速度快10倍以上。此外,V2提供了多种规模的模型,并支持一个多功能评估基准,以促进未来研究。
2024-06-21 09:37:37 1598
原创 深度学习论文: Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
本文提出了名为Depth Anything的实用单目深度估计(MDE)方案,旨在构建能够处理各种任务环境图像的简单而强大的基础模型。方案从三个关键维度进行优化:首先,通过数据引擎实现大规模无标注数据的收集与自动标注,显著提升数据覆盖率和降低泛化误差;其次,利用数据增广工具创造更具挑战性的优化目标,增强模型对额外视觉知识的探索能力,提升特征鲁棒性;最后,设计辅助监督信息,使模型能够继承预训练Encoder中的丰富语义先验信息。
2024-06-21 09:05:20 1111
原创 深度学习论文: A Comprehensive Overview of Fish-Eye Camera Distortion Correction Methods
鱼眼镜头畸变校正是数字图像处理中的关键任务,旨在纠正鱼眼镜头引入的畸变并提高图像质量。在本综述中,提供了用于鱼眼镜头畸变校正的各种方法的全面概述。本文讨论了多项式畸变模型,该模型利用多项式函数来模拟和校正径向畸变。由于其简单有效,这种方法被广泛采用。此外,还探索了全景映射、网格映射、直接方法和基于深度学习的方法等替代方案。每种方法都有其优点和局限性,其适用性取决于具体的要求和限制。
2024-06-06 13:20:14 800
原创 深度学习论文: DINOv2: Learning Robust Visual Features without Supervision
提出一种自监督学习方法DINOv2,可在不需要微调的情况下,生成适用于各种图像分布和任务的通用视觉特征,使用精心筛选的大量图像数据进行预训练,并利用自动流程构建数据集以提高稳定性并加速训练。
2024-06-05 15:04:55 911
原创 深度学习论文: Emerging Properties in Self-Supervised Vision Transformers
本文探讨自监督学习是否为Vision Transformer(ViT)带来了相较于卷积网络的新特性。发现自监督ViT特征包含明确的图像语义分割信息,并展现出色的k-NN分类性能。同时,强调了动量编码器、多裁剪训练及小补丁在ViT中的重要性。基于这些发现,提出了DINO这一无标签自蒸馏方法,与ViT结合在ImageNet上实现了80.1%的top-1准确率。
2024-06-05 15:04:12 1104
原创 深度学习论文: Attend, Distill, Detect: Attention-aware Entropy Distillation for Anomaly Detection
无监督异常检测在工业领域至关重要,需求高吞吐和精度。早期的一类一模型方法不适用于大规模生产。提出的DCAM模块通过分布式卷积注意力机制,改善了多类异常检测中的知识蒸馏过程,有效检测不同大小的异常。DCAM仅在训练时使用,通过最小化相对熵和特征图间的相似性,实现尺度不变性和非线性关系捕获,最终提高了3.92%的性能,同时保持低时延。
2024-06-04 14:37:44 613
原创 深度学习论文: AnomalyDINO: Boosting Patch-based Few-shot Anomaly Detection with DINOv2
通过将DINOv2模型适应到一次性和少量异常检测中,并专注于工业应用少量异常检测。实验表明,这种方法不仅与现有技术相匹敌,甚至可以在许多设置中超越它们。我们提出的仅视觉方法AnomalyDINO基于补丁相似性,能够实现图像级别的异常预测和像素级别的异常分割。该方法在方法论上很简单,无需训练,因此不需要任何额外的数据进行微调或元学习。
2024-06-04 11:00:50 930 2
原创 深度学习论文: YOLOv10: Real-Time End-to-End Object Detection
YOLO在实时物体检测领域因计算成本与检测性能的平衡而领先。尽管研究人员在架构、优化目标和数据增强方面取得显著进展,但YOLO对NMS的依赖影响了其端到端部署和推理速度。此外,YOLO组件设计的不足导致计算冗余和性能限制。为此,YOLOv10专注于后处理和模型架构,提出了无NMS训练的一致对偶分配方法,实现高性能和低延迟。同时,YOLOv10采用效率-准确度驱动的策略,全面优化YOLO组件,降低计算成本并提高性能。
2024-05-27 14:47:36 1037 2
原创 深度学习论文: UnSAMFlow: Unsupervised Optical Flow Guided by Segment Anything Model
传统的无监督光流方法容易受到遮挡和运动边界的影响,因为缺乏物体级别的信息。因此,提出了UnSAMFlow,这是一个无监督光流网络,利用了最新的基础模型Segment Anything Model(SAM)中的物体信息。它包含了一个针对SAM掩模量身定制的自监督语义增强模块。分析了传统平滑损失的梯度景观不佳,并提出了一个基于单应性的新平滑度定义。此外,还添加了一个简单但有效的掩模特征模块,以在物体级别上聚合特征。
2024-05-21 17:07:28 1183
原创 NVIDIA TensorRT Model Optimizer
NVIDIA TensorRT 模型优化器(ModelOpt)是一个用于优化 AI 模型的库,它通过量化和稀疏性技术减小模型大小并加速推理,同时保持模型性能。ModelOpt 支持多种量化格式和算法,包括 FP8、INT8、INT4,并提供 Python API 以实现轻松优化。它还支持后训练量化和量化感知训练。此外,ModelOpt 提供了稀疏性 API,以减少模型的内存占用,支持 NVIDIA 的稀疏模式和稀疏化方法,并推荐使用微调来最小化精度损失。
2024-05-13 16:51:04 845
原创 深度学习论文: LightGlue: Local Feature Matching at Light Speed
LightGlue通过自适应地应对不同难度的图像对来改进视觉匹配,包括视觉重叠程度、外观变化和辨别信息量。对于易于匹配的图像对,其推理速度更快,类似于人类处理视觉信息的方式。它通过在每个计算块后预测对应关系、让模型自我评估是否需要进一步计算,并在早期阶段丢弃不可匹配的点来优化性能。在如SLAM等典型操作条件下,LightGlue在保持性能的同时带来了显著改进,通过动态调整网络大小而非减少其整体容量。
2024-05-09 16:59:22 977
原创 深度学习论文: SuperPoint: Self-Supervised Interest Point Detection and Description
本文提出了一个自监督框架,用于训练适用于计算机视觉中多视图几何问题的兴趣点检测器和描述符。全卷积模型在完整图像上操作,联合计算兴趣点位置和描述符。通过引入单应性适应方法,提升兴趣点检测的重复性和跨域适应性。在MS-COCO数据集上训练后,提出的模型在HPatches上实现了最先进的单应性估计结果。
2024-05-08 17:08:14 868
原创 深度学习论文: Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like Speed
本文介绍了一种基于LoFTR改进的新型半稠密局部特征匹配器。作者通过重新审视设计,提出了既提升效率又增强匹配精度的改进。主要改进包括:利用局部信息的相似性,避免在完整特征图上执行Transformer,而是采用聚合注意力模块在减少的令牌上执行,从而提高了效率和性能。此外,还设计了一个两阶段相关层,解决了LoFTR中的位置差异问题,进一步提升了匹配精度。该方法相比LoFTR效率提升约2.5倍,匹配精度更高,并且作为半稠密匹配方法,其效率可与稳健的稀疏特征匹配器LightGlue相媲美。
2024-05-08 14:23:09 1238
原创 深度学习论文: DMAD: Dual Memory Bank for Real-World Anomaly Detection
文章介绍了一种名为DMAD的新框架,用于图像异常检测。传统方法为每个对象训练一个独特的模型,但随着对象类别数量增加,这种方法导致了存储消耗的增加。UniAD采用多类设置,训练统一模型以节省存储。但无监督学习在异常检测中存在边界定义不准确的问题。利用现实世界中少量异常数据的半监督方法可提高性能。因此,作者提出DMAD框架,适用于统一半监督设置,通过双内存库处理两种情况,利用补丁特征编码器和多层感知器学习特征表示与异常分数映射,以更准确地检测异常。实验结果表明,DMAD在MVTec-AD和VisA数据集上的表现
2024-05-06 15:21:04 1440
CUDA C编程权威指南
2019-05-02
CUDA并行程序设计 GPU编程指南
2019-05-02
linux下安装Anaconda3+pytorch+tensorboardX依赖包
2019-03-23
Quartz 示例代码
2017-05-02
Java反射机制代码
2017-05-01
java反射示例代码
2017-05-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人