自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 LeMeViT:具有可学习元令牌的高效ViT

提出了双交叉注意(DCA)来促进图像令牌和元令牌之间的信息交换,其中它们在双分支结构中交替充当查询和密钥(值)令牌,与自注意相比,显著降低了计算复杂度。在分类和密集预测任务中的实验结果表明,与baseline相比,LeMeViT具有1.7倍的显著加速、更少的参数和有竞争力的性能,并在效率和性能之间实现了更好的权衡。

2024-06-08 15:33:12 496

原创 Opencv 测量物体尺寸

简介:实时测量物体尺寸是使用OpenCV进行计算机视觉应用的一个常见案例。下面我来简单实现一下如何在以一张A4纸为背景的前提下进行物体测量。主要功能是从视频或图像中识别出特定的对象(如A4纸),并进行固定的流程:边缘检测、轮廓提取、透视变换和物体尺寸测量。以上代码实现了一个实时测量物体尺寸的系统。通过摄像头或视频文件输入,检测物体并测量其尺寸,并在画面上显示结果。

2024-04-15 22:32:23 705 1

原创 使用Swin-Transformer的图像修复

好处有两个:(1)Transformer 可以有效捕捉长距离依赖,Swin Transformer 将自注意力计算限制在分割的不重叠窗口内从而降低计算量;(2) 使用 CNN 在 Transformer Layer 后避免原论文中的层级结构,实现即插即用,同时在 Transformer 中 CNN 可以稳定训练过程与融合特征。以往通过GAN等方式的图像修复大多是以卷积网络进行的,本文讲解一个基于Swin-Transformer的SwinIR模型,包括:浅层特征提取、深层特征提取和高质量图像重建。

2024-04-07 20:21:46 507

原创 SSD:基于深度网络的目标检测器

按照卷积的方式,在几个具有不同尺度(例如 8×8 和 4×4 在 (b) 和(c)的特征图每个位置,我们评估一小组(例如 4 个)不同宽高比的默认边框。具体来说,对于特征层的每一个单元区域(比如大小为m×n),网络会使用小的3×3×p的卷积核来预测目标的类别分数或相对于默认框坐标的位置偏移。SSD中的默认框在概念上与Faster R-CNN中使用的锚点框类似,但SSD将这些默认框应用到多个分辨率的特征图上,这样可以有效地覆盖不同尺寸和比例的目标,提高检测的准确性和灵活性。让我们来了解一下SSD。

2024-04-06 19:17:21 812

原创 MogaNet:从多阶博弈论交互探索现代卷积

MogaNet是一种从多阶博弈论交互的新观点出发的计算高效的纯卷积网络架构。通过特别关注多阶博弈交互,设计了一个统一的多阶遗传块,有效捕捉了跨空间和信道空间的鲁棒多阶上下 文。

2024-02-13 22:30:53 961

原创 UniRepLKNet:大核卷积的领先性能

本文介绍UniRepLKNet论文及测试UniRepLKNet的性能,用到农业病害识别数据集做图像分类测试。

2024-02-04 17:50:23 1897 1

原创 弱监督定位——类激活图大显身手

如何不使用目标检测也能把目标定位出来?通过可视化与灵活的写入网络体系中,Grad-CAM可以很好的将模型感兴趣的区域定位出来,再结合opencv对图像或视频的处理,可以让我们实现类似于目标检测的效果。

2024-01-16 20:25:11 663 1

原创 AI中英文场景OCR识别

使用AI中英文场景OCR(Optical Character Recognition,光学字符识别)识别和提取图像或视频中的文字信息。它可以自动检测图像中的文字,并将其转换为可编辑的文本格式,从而实现对图像中文字的理解和处理

2024-01-11 15:48:06 1264

原创 Grad-CAM——模型所关注的

Grad-CAM(Gradient-weighted Class Activation Mapping)是由Selvaraju等人在2017年的论文中提出的。Grad-CAM是一种可解释性方法,用于解释深度神经网络在图像分类任务中的预测结果。传统的可视化方法,如热力图和类激活映射(CAM),通常只能对网络中的全局信息进行可视化,而无法提供更细粒度的局部信息。Grad-CAM通过结合梯度信息和全局池化层的权重来解决这个问题,从而生成更准确的可视化结果。

2024-01-04 19:32:41 1928 1

原创 Pytorch基于神经网络实现水果识别(图像、视频)

模型训练采用VGG-16,该网络通过简单的深度卷积堆叠实现特征提取,具有高度统一的网络设计优势,容易实现,但是提高了深度特征的表达能力。VGG-16网络使用了多个3x3的卷积核来代替较大尺寸的卷积核,例如5x5或7x7。这种设计的优势在于,多个小卷积核的叠加可以增加网络的非线性表示能力,并且通过使用较小的卷积核可以减少参数数量,降低过拟合的风险,非常适合本次任务的要求。

2024-01-03 20:00:11 2857 10

原创 Pytorch基于神经网络实现手写数字识别

本文基于PyTorch框架实现了手写数字识别任务,我使用Resnet18作为特征提取骨干,通过opencv框架实现了对手写数字的识别和分割,再将图像转为MNIST数据集格式,输入到神经网络中进行识别分类,最后输出内容。

2023-12-23 22:46:52 822 2

原创 Pytorch基于Fasternet的改进式网络的图像分类

Fasternet提出了一种简单的PConv,减少计算冗余和内存份额访问,获得比常规卷积更低的FLOP和比深度方向/组卷积更高的FLOP。本文用简单的手段优化了模型,使它更利于解决分类任务。

2023-10-28 21:37:46 819 5

原创 Yolov7训练自己的数据集全流程

适合新手的Yolov7训练自己的数据集全流程

2023-10-18 00:04:36 2325 1

原创 计算机视觉模型预训练通用框架

当涉及训练预模型时,有一个通用框架可以帮助我们快速构建和训练模型。这个框架可以适用于各种下游任务,并且易于定制和扩展。在本文中,我们将介绍这个通用框架的不同部分,并说明如何使用它来训练自己的模型。

2023-10-12 23:36:48 156

原创 计算机视觉模型性能测试总结

当评估一个深度学习模型好坏时,我们通常可以考虑以下几个关键指标:图像尺寸(Imgsize)、参数数量(param)、FLOPs(Floating Point Operations)、吞吐量(Throughput )等指标,如图1所示。要计算代码的吞吐量,可以测量代码的执行时间,并结合任务数量或处理的数据量来计算吞吐量。然而,较多的参数也会增加模型的大小和计算量。这样,常见的模型性能测试的数据就可以被计算出来,它可以验证该模型在给定任务上的表现和效果,它对于模型的开发和部署都有参考作用。

2023-09-19 11:07:34 225

原创 vgg16添加注意力模块做图像分类

受现代transformers思路启发,我打算在VGG16模型的特定层之间添加自注意力模块,以使模型能够自动学习图像中的关键区域。这样做需要对VGG16模型的结构进行修改,并添加自注意力模块的定义和连接,使用注意力机制替代VGG16模型中的卷积层。

2023-09-12 22:36:15 2150 4

原创 用python做圆周率π的可视化实验,前进每位数字对应格数再右转,用turtle库画出图像

内容如标题:我们可以使用Python的turtle库来进行圆周率π的可视化实验,并通过前进每位数字对应的格数再右转的方式来绘制圆周率π的图像。

2023-07-27 23:24:53 623 1

原创 数据集处理方法

以下是几种处理类别不平衡的常见方法:1. 欠采样:随机删除数量较多的类别的样本,使得各个类别的样本数接近平衡。2. 过采样:刚好相反,这种方法将数量较少的类别的样本复制或生成新的合成样本,以增加其样本数量,使得各个类别的样本数接近平衡。3. 加权损失函数:为不同类别赋予不同的损失权重,使得模型在训练时更关注样本较少的类别,以提高模型对少数类别的学习能力。我们可以考虑使用上述方法之一来处理类别不平衡。过采样:我们可以使用resample()函数进行过采样处理,将数量较少的类别的样本复制并添加到训练集中。

2023-07-20 21:39:50 301

原创 Pytorch基于DDPM+InceptionNext+数据增强的图像分类(二)

项目简介:本项目旨在通过使用深度学习技术实现对图像进行分类。我采用了DDPM(Deep Dynamic Probabilistic Modeling)和InceptionNext两个模型的结合,以提高图像分类的准确性和性能。同时,我还使用了数据增强技术来增加训练数据的多样性,从而提升模型的泛化能力。

2023-07-08 12:06:12 420 1

原创 Pytorch基于DDPM+InceptionNext+数据增强的图像分类(一)

在每个扩散步骤中,DDPM 通过对当前样本进行微小的扰动来生成下一个样本,这个扰动是基于一个预训练的神经网络模型进行采样得到的。DDPM 的一个关键优点是它能够生成高分辨率的图像样本,并在图像生成任务中取得了显著的成就。网络构建:我使用的是基于Pytorch的DDOM框架:通过一个正向过程来将中间图像转化为目标图像。这个过程是一个条件生成过程,以中间图像为输入,通过迭代地添加噪声,生成与目标图像更接近的样本。将生成好的图像填充到我的植物数据集中,准备接下来的图像分类任务。Diffusion模型。

2023-07-08 10:18:52 933 2

原创 Pytorch学习率衰减基本方法

在 PyTorch 中,可以使用学习率调度器(Learning Rate Scheduler)来实现学习率衰减。学习率调度器是 PyTorch 提供的一种工具,用于自动调整优化器中的学习率。一般步骤:上述代码中,'StepLR' 是学习率调度器的一种,它在每个 step_size(在这里是10个epoch)之后将学习率乘以 gamma(在这里是0.1)。# 训练代码# ...# 更新学习率在每个 epoch 结束后,调用 `scheduler.step()` 来更新优化器中的学习率。

2023-06-24 18:48:38 2474

原创 修改YOLOv7成API并实现车道线检测

opencv、YOLOv7

2023-05-25 23:51:39 392

原创 用现代卷积神经网络训练猫狗分类

这里使用的是Kaggle的猫狗数据集,我们先将下载的数据集分为训练集合测试集,训练集要分为cat和dog两类,里面是打好标注的图片。

2023-05-25 23:07:15 195

原创 python自制线性数据集,用线性神经网络训练

python自制线性数据集,用线性神经网络训练

2023-04-28 00:09:58 309 1

视觉模型预训练通用框架

分类、识别、分割、检测等视觉任务可以被称为下游任务,关键的上游任务是预训练模型。当涉及训练预模型时,有一个通用框架可以帮助我们快速构建和训练模型。这个框架可以适用于各种下游任务,并且易于定制和扩展。在本文中,我们将介绍这个通用框架的不同部分,并说明如何使用它来训练自己的模型。

2023-10-12

支架.SLDPRT.sldprt

支架.SLDPRT.sldprt

2022-11-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除