oliveray-CSDN博客

原创自制AI的图片分类工具- 智能图片分类器

亲爱的科技爱好者们，今天我要为大家介绍一款自制的小工具 ——智能图片分类器！这款软件能够通过部署你的模型，就像是一位AI魔法师，能够瞬间识别各种图片，让你的图片管理工作变得轻松又有趣。

2025-02-07 19:15:05 552

原创模型界的“传承“：知识蒸馏黑科技调教出浓缩版ViT小天才

知识蒸馏（Knowledge Distillation）提供了一种有效的解决方案。今天我们就让大模型手把手带小模型刷题，看看这个让模型瘦身90%还能保持高智商的秘密配方！

2025-02-07 13:49:03 900

原创 LeMeViT：具有可学习元令牌的高效ViT

提出了双交叉注意（DCA）来促进图像令牌和元令牌之间的信息交换，其中它们在双分支结构中交替充当查询和密钥（值）令牌，与自注意相比，显著降低了计算复杂度。在分类和密集预测任务中的实验结果表明，与baseline相比，LeMeViT具有1.7倍的显著加速、更少的参数和有竞争力的性能，并在效率和性能之间实现了更好的权衡。

2024-06-08 15:33:12 713

原创 Opencv 测量物体尺寸

简介：实时测量物体尺寸是使用OpenCV进行计算机视觉应用的一个常见案例。下面我来简单实现一下如何在以一张A4纸为背景的前提下进行物体测量。主要功能是从视频或图像中识别出特定的对象（如A4纸），并进行固定的流程：边缘检测、轮廓提取、透视变换和物体尺寸测量。以上代码实现了一个实时测量物体尺寸的系统。通过摄像头或视频文件输入,检测物体并测量其尺寸,并在画面上显示结果。

2024-04-15 22:32:23 2472 2

好处有两个：(1)Transformer 可以有效捕捉长距离依赖，Swin Transformer 将自注意力计算限制在分割的不重叠窗口内从而降低计算量；(2) 使用 CNN 在 Transformer Layer 后避免原论文中的层级结构，实现即插即用，同时在 Transformer 中 CNN 可以稳定训练过程与融合特征。以往通过GAN等方式的图像修复大多是以卷积网络进行的，本文讲解一个基于Swin-Transformer的SwinIR模型，包括：浅层特征提取、深层特征提取和高质量图像重建。

2024-04-07 20:21:46 1177

原创 SSD:基于深度网络的目标检测器

按照卷积的方式，在几个具有不同尺度（例如 8×8 和 4×4 在 (b) 和(c)的特征图每个位置，我们评估一小组（例如 4 个）不同宽高比的默认边框。具体来说，对于特征层的每一个单元区域（比如大小为m×n），网络会使用小的3×3×p的卷积核来预测目标的类别分数或相对于默认框坐标的位置偏移。SSD中的默认框在概念上与Faster R-CNN中使用的锚点框类似，但SSD将这些默认框应用到多个分辨率的特征图上，这样可以有效地覆盖不同尺寸和比例的目标，提高检测的准确性和灵活性。让我们来了解一下SSD。

2024-04-06 19:17:21 1003

原创 MogaNet:从多阶博弈论交互探索现代卷积

MogaNet是一种从多阶博弈论交互的新观点出发的计算高效的纯卷积网络架构。通过特别关注多阶博弈交互，设计了一个统一的多阶遗传块，有效捕捉了跨空间和信道空间的鲁棒多阶上下文。

2024-02-13 22:30:53 1547 1

原创 UniRepLKNet：大核卷积的领先性能

本文介绍UniRepLKNet论文及测试UniRepLKNet的性能，用到农业病害识别数据集做图像分类测试。

2024-02-04 17:50:23 2656 1

原创弱监督定位——类激活图大显身手

如何不使用目标检测也能把目标定位出来？通过可视化与灵活的写入网络体系中，Grad-CAM可以很好的将模型感兴趣的区域定位出来，再结合opencv对图像或视频的处理，可以让我们实现类似于目标检测的效果。

2024-01-16 20:25:11 1154 1

原创 AI中英文场景OCR识别

使用AI中英文场景OCR（Optical Character Recognition，光学字符识别）识别和提取图像或视频中的文字信息。它可以自动检测图像中的文字，并将其转换为可编辑的文本格式，从而实现对图像中文字的理解和处理

2024-01-11 15:48:06 1762

原创 Grad-CAM——模型所关注的

Grad-CAM（Gradient-weighted Class Activation Mapping）是由Selvaraju等人在2017年的论文中提出的。Grad-CAM是一种可解释性方法，用于解释深度神经网络在图像分类任务中的预测结果。传统的可视化方法，如热力图和类激活映射（CAM），通常只能对网络中的全局信息进行可视化，而无法提供更细粒度的局部信息。Grad-CAM通过结合梯度信息和全局池化层的权重来解决这个问题，从而生成更准确的可视化结果。

2024-01-04 19:32:41 2955 3

原创 Pytorch基于神经网络实现水果识别（图像、视频）

模型训练采用VGG-16，该网络通过简单的深度卷积堆叠实现特征提取，具有高度统一的网络设计优势，容易实现，但是提高了深度特征的表达能力。VGG-16网络使用了多个3x3的卷积核来代替较大尺寸的卷积核，例如5x5或7x7。这种设计的优势在于，多个小卷积核的叠加可以增加网络的非线性表示能力，并且通过使用较小的卷积核可以减少参数数量，降低过拟合的风险，非常适合本次任务的要求。

2024-01-03 20:00:11 5195 13

原创 Pytorch基于神经网络实现手写数字识别

本文基于PyTorch框架实现了手写数字识别任务，我使用Resnet18作为特征提取骨干，通过opencv框架实现了对手写数字的识别和分割，再将图像转为MNIST数据集格式，输入到神经网络中进行识别分类，最后输出内容。

2023-12-23 22:46:52 1109 2

原创 Pytorch基于Fasternet的改进式网络的图像分类

Fasternet提出了一种简单的PConv，减少计算冗余和内存份额访问，获得比常规卷积更低的FLOP和比深度方向/组卷积更高的FLOP。本文用简单的手段优化了模型，使它更利于解决分类任务。

2023-10-28 21:37:46 1225 5

原创 Yolov7训练自己的数据集全流程

适合新手的Yolov7训练自己的数据集全流程

2023-10-18 00:04:36 2588 1

原创计算机视觉模型预训练通用框架

当涉及训练预模型时，有一个通用框架可以帮助我们快速构建和训练模型。这个框架可以适用于各种下游任务，并且易于定制和扩展。在本文中，我们将介绍这个通用框架的不同部分，并说明如何使用它来训练自己的模型。

2023-10-12 23:36:48 293

原创计算机视觉模型性能测试总结

当评估一个深度学习模型好坏时，我们通常可以考虑以下几个关键指标：图像尺寸（Imgsize）、参数数量（param）、FLOPs（Floating Point Operations）、吞吐量（Throughput ）等指标，如图1所示。要计算代码的吞吐量，可以测量代码的执行时间，并结合任务数量或处理的数据量来计算吞吐量。然而，较多的参数也会增加模型的大小和计算量。这样，常见的模型性能测试的数据就可以被计算出来，它可以验证该模型在给定任务上的表现和效果，它对于模型的开发和部署都有参考作用。

2023-09-19 11:07:34 566

原创 vgg16添加注意力模块做图像分类

受现代transformers思路启发，我打算在VGG16模型的特定层之间添加自注意力模块，以使模型能够自动学习图像中的关键区域。这样做需要对VGG16模型的结构进行修改，并添加自注意力模块的定义和连接，使用注意力机制替代VGG16模型中的卷积层。

2023-09-12 22:36:15 3321 5

原创用python做圆周率π的可视化实验，前进每位数字对应格数再右转，用turtle库画出图像

内容如标题：我们可以使用Python的turtle库来进行圆周率π的可视化实验，并通过前进每位数字对应的格数再右转的方式来绘制圆周率π的图像。

2023-07-27 23:24:53 913 1

原创数据集处理方法

以下是几种处理类别不平衡的常见方法：1. 欠采样：随机删除数量较多的类别的样本，使得各个类别的样本数接近平衡。2. 过采样：刚好相反，这种方法将数量较少的类别的样本复制或生成新的合成样本，以增加其样本数量，使得各个类别的样本数接近平衡。3. 加权损失函数：为不同类别赋予不同的损失权重，使得模型在训练时更关注样本较少的类别，以提高模型对少数类别的学习能力。我们可以考虑使用上述方法之一来处理类别不平衡。过采样：我们可以使用resample()函数进行过采样处理，将数量较少的类别的样本复制并添加到训练集中。

2023-07-20 21:39:50 613 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

cshsjdh的博客

原创自制AI的图片分类工具- 智能图片分类器

原创模型界的“传承“：知识蒸馏黑科技调教出浓缩版ViT小天才

原创 LeMeViT：具有可学习元令牌的高效ViT

原创 Opencv 测量物体尺寸

原创使用Swin-Transformer的图像修复

原创 SSD:基于深度网络的目标检测器

原创 MogaNet:从多阶博弈论交互探索现代卷积

原创 UniRepLKNet：大核卷积的领先性能

原创弱监督定位——类激活图大显身手

原创 AI中英文场景OCR识别

原创 Grad-CAM——模型所关注的

原创 Pytorch基于神经网络实现水果识别（图像、视频）

原创 Pytorch基于神经网络实现手写数字识别

原创 Pytorch基于Fasternet的改进式网络的图像分类

原创 Yolov7训练自己的数据集全流程

原创计算机视觉模型预训练通用框架

原创计算机视觉模型性能测试总结

原创 vgg16添加注意力模块做图像分类

原创用python做圆周率π的可视化实验，前进每位数字对应格数再右转，用turtle库画出图像

原创数据集处理方法

原创 Pytorch基于DDPM+InceptionNext+数据增强的图像分类（二）

原创 Pytorch基于DDPM+InceptionNext+数据增强的图像分类（一）

原创 Pytorch学习率衰减基本方法

原创修改YOLOv7成API并实现车道线检测

原创用现代卷积神经网络训练猫狗分类

原创 python自制线性数据集，用线性神经网络训练

本项目基于MobilenetV3模型开发，使用MobilenetV3对火情训练集进行训练，该数据集包括正常、火焰和烟雾三个类别，后自主搭建更轻量化模型进行模型迁移和知识蒸馏，自制智能化火情识别工具

视觉模型预训练通用框架

支架.SLDPRT.sldprt

空空如也