zuoyou-HPU-CSDN博客

原创玩转MMDetection-MMDetection制作自己的配置文件（三）

首先，创建属于自己的配置文件me.py；其次，引入自己所需要的模型文件数据集文件训练计划文件运行信息文件；接着，从模型文件开始看，是否需要进行部分参数的更改，如果需要更改则按照引入的模型文件对应匹配写入me.py文件，且写入自己的参数；完成自己模型文件参数配置后，看数据集文件，是否需要进行部分参数的更改，如果需要更改则按照引入的数据集文件对应匹配写入me.py文件，且写入自己的参数；完成自己数据集参数配置后，看训练计划文件，是否需要进行部分参数的更改，如果需要更改则按照引入的训练计划文件。

2023-04-06 20:26:11 1256

原创 Transformer中的position encoding(位置编码一)

本文主要讲解Transformer 中的 position encoding，在当今CV的目标检测最前沿，都离不开position encoding，在DETR，VIT，MAE框架中应用广泛，下面谈谈我的理解。一般position encoding 分为正余弦编码和可学习编码。正余弦编码.........

2021-12-25 09:02:38 15982 23

原创电脑系统损坏，备份文件

1.U盘：8G以上就够用，注意会格式化U盘，提前备份U盘内容2.电脑：下载Windows系统并进行启动盘制作。

2025-02-18 21:38:10 716

原创 Python程序转EXE文件并设定图标

Python程序转EXE文件并设定图标，安装 PyInstaller，准备图标文件，使用 PyInstaller 创建可执行文件，查找生成的可执行文件

2025-02-11 14:52:26 317

原创 Hybrid Transformer and CNN Attention Network forStereo Image Super-resolution

立体图像超分辨率：旨在从给定的低分辨率左右视图图像重建高分辨率图像。单图像超分辨率：旨在从给定的低分辨率主视图图像重建高分辨率图像。

2023-07-18 10:40:21 828

原创玩转MMDetection-MMDetection v2 目标检测模型有用工具的使用（六）

需要测试图像的路径。：相应的配置文件的路径。：测试所用的权重文件路径。：所用的GPU的ID号。运行demo路径下的image_demo.py代码，图像路径为demo/demo.jpg，所采用的配置文件路径为configs/faster_rcnn_r50_fpn_1x_coco.py，测试所用的权重文件路径checkpoints/faster_rcnn_r50_fpn_1x_20181010-3d1b3351.pth，设备采用cpu --device cpu。

2023-07-17 11:22:25 697

原创玩转MMDetection-MMDetection v2 目标检测模型有用工具的使用（五）

测试通用命令。

2023-07-14 15:00:16 472

原创玩转MMDetection-MMDetection v2 目标检测模型训练和测试（四）

即可，一般情况下不调用，④--gpus要使用的gpu数量⑤--gpu-dis要使用的gpus的id这两个参数，仅适用于非分布式训练，如果多卡训练时，需要调用，选择采用的gpu数量和对应gpu的ID。，采用4卡训练，没有定义GPU的ID，默认为0，1，2，3。采用Swin Transformer训练DOTA数据集，采用4卡训练，没有定义GPU的ID，默认为0，1，2，3。设置存放训练生成文件(log文件和权重文件)的路径这两个参数是必需的，③。设置训练时不验证模型，如果需要调用时，只需直接在训练命令中添加。

2023-07-13 18:11:10 1447

原创 BboxToolkit工具包使用（DOTA数据集）

在/BboxToolkit/tools/中使用BboxToolkit实现了一些工具，主要有三个功能函数。①img_split.py可以通过滑动窗口将大图像分割成小块。该工具通常用于大型航空图像，如DOTA中的图像。②visualize.py可以在图像上绘制不同类型的方框。③cal_mAP.py用于计算mAP

2023-07-12 18:25:42 1021 1

原创深度学习名词解释

将锚点框与Ground Truth中的标签框进行 IoU 对比，如果其 IoU 高于某个阈值，则该锚点框标定为前景框，否则属于背景框；你所做方法的基准模型，大家都是在这个模型的基础上进行改进，baseline在论文中就是对比效果用的。- 对于特征图上的每一个点（称之为锚点 anchor point）,生成具有不同尺度和宽高比的锚点框，这个锚点框的坐标(x,y,w,h)是在原图上的坐标。state-of-the-art result，指的是在该项研究任务中，目前最好的模型的结果/性能/表现。

2023-07-12 16:13:51 326

原创复现Oriented R-CNN for Object Detection(orientedRcnn)

2.更改configs文件下调用的hrsc.py文件中，①data_root的路径为你的HRSC2016数据集的路径，②训练和测试的imgset、ann_file、img_prefix的路径。4.更改configs文件下调用的default_runtime.py文件，根据自己的需要更改部分参数。部分可能用到的参数说明：①--gpus 要使用的gpu数量②--gpu-ids 要使用的gpu的id.1.更改调用的configs文件下的pretrained的路径为你下载的预训练权重的路径。

2023-05-29 13:21:15 1550 2

原创 An Empirical Study of Remote Sensing Pretraining(遥感预训练的实证研究)(二)

采用ResNet-50的epoch-300的RSP预训练模型ResNet-50-E300，采用Swin-T的epoch-300的RSP预训练模型Swin-T-E300，采用ViTAEv2-S的epoch-100作为ViTAEv2-S的RSP预训练模型ViTAEv2-S-E100。采用上述三个网络的预训练模型开始对下游任务进行微调，包括图像识别，语义分割，目标检测、变换检测。场景识别采用的数据集为航拍场景中常用的，不再是MillionAID。

2023-05-24 21:41:10 642

原创 An Empirical Study of Remote Sensing Pretraining(遥感预训练的实证研究)(一)

首先介绍几个预训练模型：①IMP: ImageNet pretraining. (ImageNet预训练)②RSP: remote sensing supervised pretraining on the MillionAID.(在MillionAID上进行遥感监督预训练)③MAE: MAE unsupervised pretraining on the MillionAID.(在MillionAID上进行无监督的MAE预训练)

2023-05-23 21:29:48 763

原创 Oriented R-CNN for Object Detection(定向R-CNN的目标检测)

图1为，生成定向提案的不同方案的比较。(a)旋转RPN密集放置不同尺度、比例、角度的旋转锚。(b) RoI Transformer+从水平RoI中学习定向提案。它包括RPN、RoI对齐和回归。(c)我们以建议为导向的RPN以几乎没有成本的方式产生高质量的建议。定向RPN的参数数约为RoI Transformer+的1/3000，旋转RPN的1/15。它在每个位置放置54个不同角度、尺度和宽高比(3个scales×3 ratios×6角度)的锚点。

2023-05-17 21:37:14 1668

原创 YOLO-pose复现流程

以下为用yolov5训练人体姿态估计复现流程是由Annotations和Images和labels三个子文件夹组成。①然后将Images文件夹名称改为images，两者区别为首字母一个大写，一个小写，需要改为小写。②将改为images的文件夹剪切进labels文件夹下，现在的coco-kpts数据集由Annotations和labels两个子文件夹组成。其中labels文件夹包含原本自身的内容和剪切进去的images文件。如下图所示为需要准备好的数据集存放格式。

2023-05-01 22:52:59 2189 14

原创 Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors(BBAVectors)实现遥感图像旋转框目标检测

该文在确定旋转框的基础上，提出Box boundary-aware vectors(BBAVectors)回归框边界感知向量去生成旋转框。图3 BBAVectors网络结构图图3所示说明：该方法的总体架构和面向边界框（OBB）描述。输入图像在被馈送到网络之前被调整大小为608×608。该体系结构建立在一个U形网络上。在上采样过程中，采用跳过连接来组合特征图。该架构的输出包括四个映射：热图P、偏移映射O、盒参数映射B和方向映射α。中心点的位置是从热图和偏移图中推断出来的。

2023-04-27 21:02:07 1016 1

原创 Swin Transformer实现(复现)纯目标检测

Swin Transformer实现(复现)纯目标检测

2023-04-15 11:38:54 3832 11

原创玩转MMDetection-MMDetection中的数据集文件、训练计划文件、运行信息文件及具体参数解读（二）

首先先介绍以下coco.py文件中的CocoDataset类函数，顾名思义，如果我们采用coco数据集格式，则需要调用coco.py文件，如果采用coco公共数据集则直接调用。若需要训练自己的数据集，则需要将coco.py文件下的CocoDataset类中的CLASSES中，更改为你自己数据集对应的种类，如果只有一类，切记要在一个类后加逗号。以下是coco数据集用作目标检测的数据集文件及参数解读coco_detection.py。coco数据集格式如下图所示。

2023-04-12 20:03:17 2044 3

原创玩转MMDetection-MMDetection中的模型框架文件及参数解读（一）

该文主要介绍完整的MMDetection包含的配置文件中的模型文件--model.py以下代码详细逐行解读了模型文件包含的代码含义及使用。

2023-04-10 21:17:07 3003 2

原创 Anaconda安装及使用labelme制作实例分割自建数据集

②创建完成后，激活虚拟环境③安装labelme 正常运转需要各种依赖的包，先下载pyqt和pillow均yes操作④安装labelme至此，使用labelme的前期工作已经做完，接下来开始labelme的使用。

2023-04-05 10:09:56 3461 4

原创图像分类网络搭建的一些函数及相关配置文件（一）

图像分类网络搭建的一些函数及相关配置文件 """自定义数据集"""self.images_path = images_path #图像路径self.images_class = images_class #图像种类self.transform = transform #数据预处理= 'RGB' :raise ValueError("image:{} isn't RGB mode.".format(self.images_path[index])) #若不是RGB图像抛出异常。

2023-04-03 13:29:25 287

原创 yolo5(s)实现目标检测，训练自己的数据集

yolo5(s)实现目标检测，训练自己的数据集。可以测试视频和图片。

2023-03-30 19:26:17 942

原创 python3.6、3.7、3.8安装dlib库

python3.8安装dlib库，因为python的版本对应的dlib库的版本不一样，官网也很难直接找到对应的whl文件，本文提供了python3.8对应的whl文件可供直接进行对应版本的安装

2022-11-07 11:12:06 3958 8

原创 CUDA多卡调用

CUDA由单卡调用改为多卡调用的代码变化

2022-11-07 11:06:11 1230

原创 pycocotools库的安装（本人亲测，已解决）

pycocotools库的安装，分别在window系统和Ubuntu系统下对应的安装方法

2022-11-07 10:57:42 8353 6

原创修改pip及python版本

修改pip及python版本：(1)查看现存python、pip的版本路径(2)移除现存的python3、pip3链接(3)建立新的软链接（一般基础环境的软链接路径如下）(4)查看是否建立成功

2022-11-07 10:55:38 2675 1

原创 Swin Transformer 中的 shift window attention

2022-04-14 10:14:46 5138 3

原创 PIP换元，暴力换元，没有多余操作。

第一步：WIN+R打开命令窗口。第二步：输入 %HOMEPATH%，然后回车，打开用户内部窗口。第三步：在所打开的窗口创建文本文件命名pip.txt，打开输入下列四局，并保存关闭。[global]timeout = 6000index-url = https://pypi.tuna.tsinghua.edu.cn/simpletrusted-host = pypi.tuna.tsinghua.edu.cn第四步：将保存好的pip文件后缀txt改为ini，到此就...

2022-04-11 10:40:53 607

原创 Transformer中的position encoding(位置编码二)

本文依旧采用4*4大小的词嵌入模型，和模仿3*3大小的特征图进行解读——可学习编码1.根据自己模型中的定义的最大特征图大小进而定义词嵌入模型大小。假设模型中的特征图大小不超过4*4，那么我定义的词嵌入模型大小就为4*4，同正余弦编码一样，采用10维数据进行编码。生成行方向的词嵌入模型(4 ,10)，及生成列方向的词嵌入模型(4 , 10)，进而生成4*10的随机权重值并均匀分布在0-1之间。row_embed = nn.Embedding(4, 10)#生成行方向词嵌入模型col_embe.

2022-01-10 21:15:49 2339 2

EfficientNet-classification EfficientNet在pytorch框架下实现图像分类，拿走即用

EfficientNet_classification。EfficientNet在pytorch框架下实现图像分类，拿走即用。该文件包含python语言编写的model文件、my_dataset文件、predict文件、train文件、配置文件等。能够实现训练自己的数据集进行图像分类，以及对训练后的网络进行测试。EfficientNet利用NAS(Neural Architecture Search)搜索技术，将输入分辨率，网络的深度、宽度三者同时考虑，搭建更nice的网络结构。EfficientNet-B0的网络框架，总体看，分成了9个Stage：Stage1 是一个卷积核大小为3x3，步距为2的普通卷积层（包含BN和激活函数Swish）；Stage2～Stage8 是在重复堆叠 MBConv 结构；Stage9 是一个普通的1x1的卷积层(包含BN和激活函数Swish) + 一个平均池化层 + 一个全连接层组成

2023-03-29

ResNet-classification ResNet网络在pytorch框架下实现图像分类，拿走即用，包含批量化测试验证

ResNet_classification。ResNet网络在pytorch框架下实现图像分类，拿走即用，包含批量化测试验证。该文件包含ResNet18、ResNet50、ResNet101等网络实现图像分类的代码及对训练好的模型进行单一测试和批量测试的代码。ResNet网络是参考了VGG19网络，在其基础上进行了修改，并通过短路机制加入了残差单元。

2023-03-29

LeNet-official-demo实现图像分类 LeNet网络pytorch官方实现demo代码，拿走即用

LeNet_official_demo.LeNet网络pytorch官方实现demo代码，拿走即用。手写字体识别模型LeNet5诞生于1994年，是最早的卷积神经网络之一。LeNet5通过巧妙的设计，利用卷积、参数共享、池化等操作提取特征，避免了大量的计算成本，最后再使用全连接神经网络进行分类识别，这个网络也是最近大量神经网络架构的起点。LeNet5由7层CNN（不包含输入层）组成，上图中输入的原始图像大小是32×32像素，卷积层用Ci表示，子采样层（pooling，池化）用Si表示，全连接层用Fi表示。

2023-03-29

GoogLeNet-classification 采用GoogLeNet网络在pytorch框架下实现图像分类，拿走即用

GoogLeNet_classification。采用GoogLeNet网络在pytorch框架下实现图像分类，拿走即用。GoogLeNet是google推出的基于Inception模块的深度神经网络模型，在2014年的ImageNet竞赛中夺得了冠军，在随后的两年中一直在改进，形成了Inception V2、Inception V3、Inception V4等版本。GoogLeNet采用了模块化的结构（Inception结构），方便增添和修改；网络最后采用了average pooling（平均池化）来代替全连接层；移除了全连接，但是网络中依然使用了Dropout；移除了全连接，但是网络中依然使用了Dropout。

2023-03-29

VGGNet.采用VGG网络在pytorch框架下实现图像分类拿走即用，包含VGG16等多层网络

VGGNet.采用VGG网络在pytorch框架下实现图像分类。拿走即用，包含VGG16等多层网络。VGG是Oxford的Visual Geometry Group的组提出的。该网络是在ILSVRC 2014上的相关工作，主要工作是证明了增加网络的深度能够在一定程度上影响网络最终的性能。VGG有两种结构，分别是VGG16和VGG19，两者并没有本质上的区别，只是网络深度不一样。VGG16相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核（11x11，7x7，5x5）。对于给定的感受野（与输出有关的输入图片的局部大小），采用堆积的小卷积核是优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小（参数更少）。

2023-03-29

Pyramid Vision Transformer (PVT) 代码，用于密集预测的通用backbone

Pyramid Vision Transformer (PVT) Transformer设计，用于密集预测的通用backbone.该资源包含Pyramid Vision Transformer及Pyramid Vision Transformer v2相关的图像分类、目标检测、实例分割代码。

2023-03-29

深度学习热力图绘制代码，例如，CNN、VIT、Swin等模型，能直接使用

深度学习热力图绘制代码，例如，CNN、VIT、Swin等模型，能直接使用。CAM又叫类别激活映射图，也被称为类别热力图、显著性图等。是一张和原始图片等同大小图，该图片上每个位置的像素取值范围从0到1，一般用0到255的灰度图表示。可以理解为对预测输出的贡献分布，分数越高的地方表示原始图片对应区域对网络的响应越高、贡献越大。利用可视化的信息引导网络更好的学习，例如可以利用CAM信息通过"擦除"或""裁剪""的方式对数据进行增强；利用CAM作为原始的种子，进行弱监督语义分割或弱监督定位。

2023-03-29

RRPN++:遥感图像旋转目标检测Guidance Towards More Accurate SceneText Detect

RRPN++: Guidance Towards More Accurate Scene Text Detection。该文件为RRPN方式实现对遥感图像的目标检测，为了加大遥感图像检测的精度，该方法采用旋转检测框的方式对目标进行旋转检测。该文件包含实现代码、论文地址、代码实现环境的配置、以及数据集形式、训练和测试方式

2023-03-29

AlexNet-classification 采用AlexNet网络的pytorch框架下实现图像分类，拿走即用

AlexNet_classification。采用AlexNet网络实现图像分类，拿走即用。AlexNet由Alex Krizhevsky于2012年提出，夺得2012年ILSVRC比赛的冠军，top5预测的错误率为16.4%，远超第一名。AlexNet采用8层的神经网络，5个卷积层和3个全连接层(3个卷积层后面加了最大池化层)，包含6亿3000万个链接，6000万个参数和65万个神经元。网络的结构包含，输入图片为224*224*3，第一个卷积层使用较大的卷积和尺寸11*11，步长为4，有96个卷积核；紧接着是LRN层；然后是一个3*3的最大池化层，步长为2,。这之后的卷积层都比较小，都是5*5或者是3*3的大小，并且步长都为1，即扫描所有的像素；最大池化层则依然为3*3，步长为2。

2023-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

EfficientNet-classification EfficientNet在pytorch框架下实现图像分类，拿走即用

ResNet-classification ResNet网络在pytorch框架下实现图像分类，拿走即用，包含批量化测试验证

LeNet-official-demo实现图像分类 LeNet网络pytorch官方实现demo代码，拿走即用

GoogLeNet-classification 采用GoogLeNet网络在pytorch框架下实现图像分类，拿走即用

VGGNet.采用VGG网络在pytorch框架下实现图像分类 拿走即用，包含VGG16等多层网络

Pyramid Vision Transformer (PVT) 代码，用于密集预测的通用backbone

深度学习热力图绘制代码，例如，CNN、VIT、Swin等模型，能直接使用

RRPN++:遥感图像旋转目标检测Guidance Towards More Accurate SceneText Detect

AlexNet-classification 采用AlexNet网络的pytorch框架下实现图像分类，拿走即用

ConvNeXt算法实现pytorch框架下的图像分类

深度学习RNN 经典论文69篇，包含LSTM应用，LSTM综述，RNN应用，RNN综述

基于MATLAB的表面裂纹识别与检测

RSSCN7 Data Set遥感图像分类数据集

程序员、研究生等简历模板（通用型模块）

yolov5实现目标检测，可训练自己的数据集。

DETR:DEtection TRansformer

coco、voc实例分割数据集制作-labelme

VIT(vision transformer)实现图像分类

Swin Transformer 实现图像分类

matlab+车牌识别与切割+GUI界面

空空如也

VGGNet.采用VGG网络在pytorch框架下实现图像分类拿走即用，包含VGG16等多层网络