自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 基于 OpenVINO 优化的 GroundingDINO + EfficientSAM 视频分割追踪

本文提出了一种基于文本驱动的视频目标分割与追踪系统,通过自然语言描述实现视频中任意目标的定位、分割和追踪。系统采用GroundingDINO进行开放词汇目标检测,EfficientSAM实现高效分割,结合光流追踪技术保证目标ID一致性。通过OpenVINO+NNCF加速推理,性能提升8.4倍(0.34FPS→2.84FPS)。创新性地设计了三级帧调度策略(检测帧/分割帧/传播帧)减少冗余计算,并引入光流追踪机制解决目标匹配问题。实验表明,该系统在保持精度的同时显著提升了处理效率,为视频分析任务提供解决方案

2025-12-22 23:13:00 675

原创 解决开放世界目标检测问题——Grounding DINO

摘要:GroundingDINO创新性地结合Transformer架构与跨模态理解,实现了开放世界目标检测。该模型通过自然语言提示直接定位图像中任意物体,无需预定义类别或重新训练。其技术核心在于图文预训练,将语言概念映射到视觉特征,包含文本编码器、图像编码器、特征融合等模块。GroundingDINO支持单图/批量检测、图像编辑(结合StableDiffusion)及像素级分割(配合SAM),显著提升了数据标注效率和AI视觉理解能力,突破了传统检测模型的封闭类别限制。

2025-12-07 22:38:31 1165

原创 动手搭建Flamingo(VQA)

Flamingo是一个创新的多模态语言模型,旨在解决传统视觉-语言模型在少样本学习和跨任务适应性上的局限。它通过结合CLIP视觉编码器和自回归语言模型,并引入感知重采样器和门控跨注意力层,实现了视觉与文本特征的有效融合。该模型支持上下文学习,仅需少量示例即可适应新任务,无需重新训练。基于Streamlit实现的交互式问答系统展示了Flamingo在实际应用中的潜力,能够处理图像描述、视觉问答等多种多模态任务,显著降低了任务适配成本。

2025-12-05 20:55:36 811

原创 ActionCLIP:clip下微调的视频动作识别

ActionCLIP提出了一种新的动作识别范式,将任务建模为视频-文本匹配问题。该方法利用标签文本的语义信息,通过多模态对比学习增强视频表示能力。框架包含视频和文本编码器,使用余弦相似度计算匹配得分,支持零样本识别而无需额外标注数据。实验在UCF101数据集上达到97%以上的准确率。文章详细介绍了模型架构、训练流程、提示工程方法,并提供了完整的实现代码和可视化工具,支持批量视频处理和预测结果展示,为动作识别任务提供了新的解决方案。

2025-11-14 20:44:06 995

原创 ATPrompt:基于属性的视觉提示

针对传统提示学习存在的泛化能力不足问题,提出创新解决方案。该方法通过引入可微分属性搜索机制,将软提示学习空间从单一类别扩展到多维属性层面。核心贡献包括:(1)采用softmax加权求和的连续属性搜索策略;(2)通过双层优化联合学习属性权重和软提示标记。实验表明,在Caltech101和Stanford Cars数据集上,ATPrompt显著提升了CoOp基线的性能。项目提供完整PyTorch实现,包含环境配置、数据集准备和训练测试流程,支持基类训练和新类零样本测试

2025-11-02 10:47:13 769

原创 大模型RAG初探【Langchain】

本文介绍了RAG(检索增强生成)技术,它通过结合检索和生成技术,解决了传统大语言模型的知识局限性和幻觉问题。RAG系统包含知识库、文档处理、嵌入模型、向量数据库等核心组件,利用Langchain框架实现文档加载、分割、向量化存储和检索功能。文章详细展示了基于本地文档知识库的RAG实现过程,包括环境配置、模型选择(Bge-lager-zh-v1.5和Deepseek)、代码实现和测试结果。该系统能够从本地文档中检索相关信息,结合大语言模型生成准确回答,有效提升了问答系统的可靠性和准确性。

2025-09-17 16:20:32 724

原创 MAE——Masked Autoencoders Are Scalable Vision Learners/图像分类和去雨雾重建/

本文介绍了掩码自编码器(MAE)在视觉任务中的应用。文章详细阐述了MAE的架构设计、损失计算和实现细节,包括编码器-解码器结构、mask token处理方式等。同时提供了MAE在图像分类、去雨/去噪等任务中的完整实现代码,包含预训练、微调和预测三个模式。实验结果表明,该方法在图像重建和修复任务中表现良好,特别是能有效保持边缘和纹理特征。文章还给出了数据

2025-08-25 22:43:37 1208

原创 [ pytorch ] 基于CLIP的zero-shot图像分类

本文介绍了CLIP模型及其应用方法。CLIP可以直接将类名转为文本特征进行zero-shot分类。文章详细展示了如何使用官方CLIP模型进行图像分类预测,准确率可达99.85%。此外,还提供了完整的代码实现,包括数据集处理、模型训练和评估流程,支持在CIFAR-100等数据集上进行微调。CLIP的创新之处在于摆脱了固定分类标签的限制,实现了基于自然语言理解的开放式分类能力

2025-08-22 18:40:57 1313

原创 nginx搭建流程与常见问题

本文详细介绍了在VMware虚拟机上安装CentOS 7并配置Nginx的完整流程。整个过程从虚拟机搭建到Web服务部署,步骤清晰完整,适合初学者按指南操作

2025-08-02 11:21:41 896

原创 自制AI的图片分类工具- 智能图片分类器

亲爱的科技爱好者们,今天我要为大家介绍一款自制的小工具 ——智能图片分类器!这款软件能够通过部署你的模型,就像是一位AI魔法师,能够瞬间识别各种图片,让你的图片管理工作变得轻松又有趣。

2025-02-07 19:15:05 1027

原创 模型界的“传承“:知识蒸馏黑科技调教出浓缩版ViT小天才

知识蒸馏(Knowledge Distillation) 提供了一种有效的解决方案。今天我们就让大模型手把手带小模型刷题,看看这个让模型瘦身90%还能保持高智商的秘密配方!

2025-02-07 13:49:03 1047

原创 LeMeViT:具有可学习元令牌的高效ViT

提出了双交叉注意(DCA)来促进图像令牌和元令牌之间的信息交换,其中它们在双分支结构中交替充当查询和密钥(值)令牌,与自注意相比,显著降低了计算复杂度。在分类和密集预测任务中的实验结果表明,与baseline相比,LeMeViT具有1.7倍的显著加速、更少的参数和有竞争力的性能,并在效率和性能之间实现了更好的权衡。

2024-06-08 15:33:12 872

原创 Opencv 测量物体尺寸

简介:实时测量物体尺寸是使用OpenCV进行计算机视觉应用的一个常见案例。下面我来简单实现一下如何在以一张A4纸为背景的前提下进行物体测量。主要功能是从视频或图像中识别出特定的对象(如A4纸),并进行固定的流程:边缘检测、轮廓提取、透视变换和物体尺寸测量。以上代码实现了一个实时测量物体尺寸的系统。通过摄像头或视频文件输入,检测物体并测量其尺寸,并在画面上显示结果。

2024-04-15 22:32:23 2944 3

原创 使用Swin-Transformer的图像修复

好处有两个:(1)Transformer 可以有效捕捉长距离依赖,Swin Transformer 将自注意力计算限制在分割的不重叠窗口内从而降低计算量;(2) 使用 CNN 在 Transformer Layer 后避免原论文中的层级结构,实现即插即用,同时在 Transformer 中 CNN 可以稳定训练过程与融合特征。以往通过GAN等方式的图像修复大多是以卷积网络进行的,本文讲解一个基于Swin-Transformer的SwinIR模型,包括:浅层特征提取、深层特征提取和高质量图像重建。

2024-04-07 20:21:46 1449

原创 SSD:基于深度网络的目标检测器

按照卷积的方式,在几个具有不同尺度(例如 8×8 和 4×4 在 (b) 和(c)的特征图每个位置,我们评估一小组(例如 4 个)不同宽高比的默认边框。具体来说,对于特征层的每一个单元区域(比如大小为m×n),网络会使用小的3×3×p的卷积核来预测目标的类别分数或相对于默认框坐标的位置偏移。SSD中的默认框在概念上与Faster R-CNN中使用的锚点框类似,但SSD将这些默认框应用到多个分辨率的特征图上,这样可以有效地覆盖不同尺寸和比例的目标,提高检测的准确性和灵活性。让我们来了解一下SSD。

2024-04-06 19:17:21 1077

原创 MogaNet:从多阶博弈论交互探索现代卷积

MogaNet是一种从多阶博弈论交互的新观点出发的计算高效的纯卷积网络架构。通过特别关注多阶博弈交互,设计了一个统一的多阶遗传块,有效捕捉了跨空间和信道空间的鲁棒多阶上下 文。

2024-02-13 22:30:53 1759 1

原创 UniRepLKNet:大核卷积的领先性能

本文介绍UniRepLKNet论文及测试UniRepLKNet的性能,用到农业病害识别数据集做图像分类测试。

2024-02-04 17:50:23 2981 1

原创 弱监督定位——类激活图大显身手

如何不使用目标检测也能把目标定位出来?通过可视化与灵活的写入网络体系中,Grad-CAM可以很好的将模型感兴趣的区域定位出来,再结合opencv对图像或视频的处理,可以让我们实现类似于目标检测的效果。

2024-01-16 20:25:11 1362 1

原创 AI中英文场景OCR识别

使用AI中英文场景OCR(Optical Character Recognition,光学字符识别)识别和提取图像或视频中的文字信息。它可以自动检测图像中的文字,并将其转换为可编辑的文本格式,从而实现对图像中文字的理解和处理

2024-01-11 15:48:06 2119

原创 Grad-CAM——模型所关注的

Grad-CAM(Gradient-weighted Class Activation Mapping)是由Selvaraju等人在2017年的论文中提出的。Grad-CAM是一种可解释性方法,用于解释深度神经网络在图像分类任务中的预测结果。传统的可视化方法,如热力图和类激活映射(CAM),通常只能对网络中的全局信息进行可视化,而无法提供更细粒度的局部信息。Grad-CAM通过结合梯度信息和全局池化层的权重来解决这个问题,从而生成更准确的可视化结果。

2024-01-04 19:32:41 3432 3

原创 Pytorch基于神经网络实现水果识别(图像、视频)

模型训练采用VGG-16,该网络通过简单的深度卷积堆叠实现特征提取,具有高度统一的网络设计优势,容易实现,但是提高了深度特征的表达能力。VGG-16网络使用了多个3x3的卷积核来代替较大尺寸的卷积核,例如5x5或7x7。这种设计的优势在于,多个小卷积核的叠加可以增加网络的非线性表示能力,并且通过使用较小的卷积核可以减少参数数量,降低过拟合的风险,非常适合本次任务的要求。

2024-01-03 20:00:11 5759 13

原创 Pytorch基于神经网络实现手写数字识别

本文基于PyTorch框架实现了手写数字识别任务,我使用Resnet18作为特征提取骨干,通过opencv框架实现了对手写数字的识别和分割,再将图像转为MNIST数据集格式,输入到神经网络中进行识别分类,最后输出内容。

2023-12-23 22:46:52 1209 2

原创 Pytorch基于Fasternet的改进式网络的图像分类

Fasternet提出了一种简单的PConv,减少计算冗余和内存份额访问,获得比常规卷积更低的FLOP和比深度方向/组卷积更高的FLOP。本文用简单的手段优化了模型,使它更利于解决分类任务。

2023-10-28 21:37:46 1415 5

原创 Yolov7训练自己的数据集全流程

适合新手的Yolov7训练自己的数据集全流程

2023-10-18 00:04:36 2780 1

原创 计算机视觉模型预训练通用框架

当涉及训练预模型时,有一个通用框架可以帮助我们快速构建和训练模型。这个框架可以适用于各种下游任务,并且易于定制和扩展。在本文中,我们将介绍这个通用框架的不同部分,并说明如何使用它来训练自己的模型。

2023-10-12 23:36:48 375

原创 计算机视觉模型性能测试总结

当评估一个深度学习模型好坏时,我们通常可以考虑以下几个关键指标:图像尺寸(Imgsize)、参数数量(param)、FLOPs(Floating Point Operations)、吞吐量(Throughput )等指标,如图1所示。要计算代码的吞吐量,可以测量代码的执行时间,并结合任务数量或处理的数据量来计算吞吐量。然而,较多的参数也会增加模型的大小和计算量。这样,常见的模型性能测试的数据就可以被计算出来,它可以验证该模型在给定任务上的表现和效果,它对于模型的开发和部署都有参考作用。

2023-09-19 11:07:34 840

原创 vgg16添加注意力模块做图像分类

受现代transformers思路启发,我打算在VGG16模型的特定层之间添加自注意力模块,以使模型能够自动学习图像中的关键区域。这样做需要对VGG16模型的结构进行修改,并添加自注意力模块的定义和连接,使用注意力机制替代VGG16模型中的卷积层。

2023-09-12 22:36:15 3594 5

原创 用python做圆周率π的可视化实验,前进每位数字对应格数再右转,用turtle库画出图像

内容如标题:我们可以使用Python的turtle库来进行圆周率π的可视化实验,并通过前进每位数字对应的格数再右转的方式来绘制圆周率π的图像。

2023-07-27 23:24:53 1219 1

原创 数据集处理方法

以下是几种处理类别不平衡的常见方法:1. 欠采样:随机删除数量较多的类别的样本,使得各个类别的样本数接近平衡。2. 过采样:刚好相反,这种方法将数量较少的类别的样本复制或生成新的合成样本,以增加其样本数量,使得各个类别的样本数接近平衡。3. 加权损失函数:为不同类别赋予不同的损失权重,使得模型在训练时更关注样本较少的类别,以提高模型对少数类别的学习能力。我们可以考虑使用上述方法之一来处理类别不平衡。过采样:我们可以使用resample()函数进行过采样处理,将数量较少的类别的样本复制并添加到训练集中。

2023-07-20 21:39:50 872 1

原创 Pytorch基于DDPM+InceptionNext+数据增强的图像分类(二)

项目简介:本项目旨在通过使用深度学习技术实现对图像进行分类。我采用了DDPM(Deep Dynamic Probabilistic Modeling)和InceptionNext两个模型的结合,以提高图像分类的准确性和性能。同时,我还使用了数据增强技术来增加训练数据的多样性,从而提升模型的泛化能力。

2023-07-08 12:06:12 651 1

原创 Pytorch基于DDPM+InceptionNext+数据增强的图像分类(一)

在每个扩散步骤中,DDPM 通过对当前样本进行微小的扰动来生成下一个样本,这个扰动是基于一个预训练的神经网络模型进行采样得到的。DDPM 的一个关键优点是它能够生成高分辨率的图像样本,并在图像生成任务中取得了显著的成就。网络构建:我使用的是基于Pytorch的DDOM框架:通过一个正向过程来将中间图像转化为目标图像。这个过程是一个条件生成过程,以中间图像为输入,通过迭代地添加噪声,生成与目标图像更接近的样本。将生成好的图像填充到我的植物数据集中,准备接下来的图像分类任务。Diffusion模型。

2023-07-08 10:18:52 1414 2

原创 Pytorch学习率衰减基本方法

在 PyTorch 中,可以使用学习率调度器(Learning Rate Scheduler)来实现学习率衰减。学习率调度器是 PyTorch 提供的一种工具,用于自动调整优化器中的学习率。一般步骤:上述代码中,'StepLR' 是学习率调度器的一种,它在每个 step_size(在这里是10个epoch)之后将学习率乘以 gamma(在这里是0.1)。# 训练代码# ...# 更新学习率在每个 epoch 结束后,调用 `scheduler.step()` 来更新优化器中的学习率。

2023-06-24 18:48:38 3371 1

原创 修改YOLOv7成API并实现车道线检测

opencv、YOLOv7

2023-05-25 23:51:39 604 1

原创 用现代卷积神经网络训练猫狗分类

这里使用的是Kaggle的猫狗数据集,我们先将下载的数据集分为训练集合测试集,训练集要分为cat和dog两类,里面是打好标注的图片。

2023-05-25 23:07:15 302 1

原创 python自制线性数据集,用线性神经网络训练

python自制线性数据集,用线性神经网络训练

2023-04-28 00:09:58 447 1

本项目基于MobilenetV3模型开发,使用MobilenetV3对火情训练集进行训练,该数据集包括正常、火焰和烟雾三个类别,后自主搭建更轻量化模型进行模型迁移和知识蒸馏,自制智能化火情识别工具

该项目包含: 1、训练数据集 2、训练好的权重 3、自主搭建的模型架构 4、自制智能化火情识别工具:包括图片识别、批量预测以及火情定位

2025-02-18

视觉模型预训练通用框架

分类、识别、分割、检测等视觉任务可以被称为下游任务,关键的上游任务是预训练模型。当涉及训练预模型时,有一个通用框架可以帮助我们快速构建和训练模型。这个框架可以适用于各种下游任务,并且易于定制和扩展。在本文中,我们将介绍这个通用框架的不同部分,并说明如何使用它来训练自己的模型。

2023-10-12

支架.SLDPRT.sldprt

支架.SLDPRT.sldprt

2022-11-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除