monster000w-CSDN博客

原创安装torch

安装torch，请按照torch官网https://pytorch.org/get-started/previous-versions/提供的方式。

2026-05-24 11:12:48 20

原创 https://pypi.tuna.tsinghua.edu.cn/simple/

清华镜像源。

2026-05-24 11:10:41 13

原创容器云2.7pytorch版本安装问题

mv python3.10/ python3.10-ori（因为会优先识别~/.local下的库，导致创建环境也会产生模块冲突，所以重命名一下，让conda识别不到）conda create -n llamafactory python=3.10 -y（创建环境）

2025-12-05 16:49:37 216

本文介绍了LLaMA-Factory的安装配置流程。首先通过pip安装LLaMA-Factory及其依赖项，使用llamafactory-cli version验证安装。为解决阿里云平台端口映射问题，建议设置环境变量GRADIO_SERVER_PORT和GRADIO_ROOT_PATH。启动Web界面可通过llamafactory-cli webui命令，若遇到访问问题可尝试更换浏览器或清除缓存。最后提及了权限设置和启动界面显示的相关注意事项。全文详细说明了从安装到运行LLaMA-Factory的完整步骤。

2025-12-05 10:44:18 231

原创 MAE复现过程

修改：运行命令：

2025-09-02 10:34:23 127

原创 MAE复现过程

conda create -n mae python==3.10安装torch，最好低于2.0pip install timm==0.4.12注释掉 # assert timm.__version__ == "0.3.2" # version checkpip install tensorboard若 from torch._six import inf 报错，则修改为：from torch import inf修改args中的datset_path①删除qkv_bias

2025-09-01 16:25:17 329

原创快速安装GPU版pytorch

本文介绍了使用conda安装PyTorch-GPU版的环境配置步骤：首先创建conda虚拟环境并指定Python版本，然后通过pip安装特定版本的PyTorch、torchvision和torchaudio（CUDA 11.8支持版）。最后提供了两个验证方法：使用conda list查看已安装库，以及通过运行torch.cuda.is_available()检查GPU是否可用。整个流程简明扼要地说明了PyTorch-GPU环境的配置和验证过程。

2025-09-01 15:05:14 359

原创采样、带宽

复采样（complex-valued sampling），包含幅度和相位两个信息，也就是说每一个采样点的值y=A+jB实际上是两个正交值的叠加，故带宽为20M的系统只需要20M的采样速率。复采样以增加了一路采样器件的代价，采样率可以减少到实采样的一半，且可以记录IQ信号的相位状态，但本质上还是在采样定理的限制之下。传统采样，是实值样点采样，需要将频谱搬移至基频（此过程，注意正负频谱分量避免交叠，负频率分量为冗余分量）。，滤波的上边频率f2，下边频率f1，而后进行。考虑复采样，对信号进行两路下变频。

2025-04-29 10:52:43 738

原创空洞/膨胀卷积

连续使用3个膨胀卷积层（卷积核大小都为3×3，膨胀系数均为2因为没有利用到所有的像素值，所以一定会丢失一部分细节信息 —— 和MaxPooling一样（但是比MaxPooling要轻微）所以在使用膨胀卷积时要尽可能避免 gridding effect 问题（不要连续使用多个膨胀系数相同的膨胀卷积）。

2025-04-28 21:02:01 1076

原创调制宽带转换器

在压缩感知理论的某些条件下，可以保证对输入多频带频谱的重建。借助为MWC开发的压缩感知重建算法，已经证明MWC可以实现无损次奈奎斯特采样率的理论下限。电子战（EW）系统、电子情报（ELINT）系统或认知无线电的应用要求观察多频带信号，即一系列不同中心频率的窄带信号，分布在高达数十吉赫兹（GHz）的宽频率范围内。当多频带信号是稀疏的，即由少量窄带组成时，信号可以以远低于奈奎斯特率的次奈奎斯特率进行采样而无信息损失。在已知所有窄带信号的频谱位置时，无损次奈奎斯特采样的理论下限是带宽之和，称为兰道率。

2025-04-27 16:08:36 353

原创通道降维方式

使用1x1卷积层（也叫pointwise卷积）来减少通道数。这种方法保留了特征图的空间维度（宽度和高度），同时减少了通道数。可以训练一个自编码器网络来学习降维。自编码器由编码器和解码器组成，通过最小化重建误差来学习紧凑的表示。使用基于注意力机制的方法来降维。例如，可以使用Transformer编码器或自注意力机制来实现降维。将特征图展平为一个向量，然后使用全连接层（线性层）来降维。这种方法适用于特征图的全局降维。

2025-04-25 15:10:30 371

原创 Hourglass网络

hourglass network 本身其实可以理解成是一个encoder-decoder的结构，encoder最大程度的提取图像在每一个scale的特征以及空间信息（spatial information），decoder则是将网络在不同分辨率下提取的特征进行综合，最后得到一个与输入图像大小一致的heatmap。值得注意的是，很多情况网络会以一个或者多个全连接成作为最后的输出层，但是hourglass 网络使用了一个1x1的卷积层来代替了全连接层，这样做的目的是为了让网络可以接受不同维度的输入。

2025-04-15 21:22:14 409

原创 FCOS目标检测

尽管采用中心区域抽样方法，可以减少前面说的冲突问题，但是无法保证，如果一个位置落在了多个GT的中心区域，此时就是模糊样本。对于特征图Fi∈RH×W×C，其相对于输入图片的stride定义为s，另外记GT为Bi，这里Bi={x0(i),y0(i),x1(i),y1(i),c(i)}，其中(x0(i),y0(i))和(x1(i),y1(i))分别是GT的左上角和右下角顶点坐标，而c(i)是GT的类别。对于特征图上的每个位置(x,y)，如果其落在任何GT的中心区域，就认为这个位置为正样本，并负责预测这个GT。

2025-04-11 14:58:52 503

原创 DSSD框架

1.backbone：将resnet替换SSD中的VGG网络，增强了特征提取能力；2.添加了Deconvolution层，增加了大量上下文信息。基础网络从VGG-16更改为RenNet-101，增强网络特征提取能力，其次参考FPN算法思路，利用反卷积结构将图像深层特征从高维空间传递出来，与浅层信息融合，联系不同层级之间的图像语义关系，通过不同层级特征之间融合特征输出预测物体类别信息。

2025-04-03 17:59:47 271

原创 SSD目标检测

1.基于Faster-R-CNN中的Anchor，提出了相似的先验框（Prior box）2.从不同比例的特征图（多尺度特征）中产生不同比例的预测，并明确地按长宽比分离预测。

2025-04-03 17:48:49 576

原创 YOLO与SSD对比

YOLO采用的是一个全卷积神经网络（FCN），它将输入的图像划分为S×S的网格，每个网格负责预测该区域内物体的存在概率以及边界框的坐标。YOLO的一个显著特点是，即输入图像后，网络直接输出目标检测结果。

2025-04-03 17:23:43 1889

原创 YOLO系列

是相关的，但它们的关系需要通过预处理来协调。

2025-04-03 16:00:27 608

原创 Focal Loss

focal loss是一个动态缩放的交叉熵损失，其中缩放因子随着正确类的置信度增加而衰减为0，改比例因子可以在训练期间自动降低简单示例的权重，并快速地将模型集中到困难示例上。Focal Loss将在训练集中在稀疏的硬样本集上，防止大量的简单否定在训练过程中压倒检测器。经典地一阶段目标检测器面临很大的类别不平衡问题，检测器对每张图像评估的候选位置可达10的5次方量级，但只有少数位置包含对象。Focal Loss简单的说，就是解决样本数量极度不平衡的问题的。样本少的，易分类的；样本多的，易分类的。

2025-04-03 12:01:53 550

原创 PAN路径聚合

在浅层的特征图中，通常分辨率较高、定位信息准确但语义信息不丰富. 而在深层的特征图中，通常分辨率较低、语义信息丰富但定位信息不准确. FPN解决了浅层特征语义信息不丰富的问题，但没有解决深层特征图定位信息不准确的问题. 定位信息对pixel-wise的任务来说尤为重要. 因此，用于实例分割任务的PANet在FPN的基础上又增加了一条由下而上的路径，用低层特征融合高层特征，以增强高层特征的定位信息.

2025-04-02 19:41:59 663

原创 ResNet系列

ResNet50中在残差结构中引入了Bottleneck结构（瓶颈层），目的是降低参数的数目（多个小尺寸卷积代替一个大尺寸卷积）

2025-04-02 19:20:16 327

原创 MSCA模块

github：卷积注意力比transform中的自注意力更能有效的编码上下文信息，设计一种使用廉价卷积运算的新型卷积注意力网络。

2025-03-27 16:29:53 662

原创 resnet结构介绍

2025-03-27 15:37:58 171

原创模型/模块梳理

SPM由两条路径组成，它们分别侧重于沿着水平和垂直空间两个维度捕获远程上下文。图中的。例如，在上图中，输出张量中以黑框为界的正方形与所有(被红色和紫色边框包围)。因此，通过多次重复上述聚合过程，可以在整个场景中构建长期依赖关系。此外，得益于element-wise乘法操作，该SPM也可以被视为一种视觉注意力机制。（其实，这个操作与CCNet思路类似，大家可以参考视觉注意力机制系列文章进行对比）SPM可以直接应用于任何预先训练的骨干网络，而无需从无到有地进行训练。与全局平均池化相比，。

2025-03-27 15:30:25 931

原创 cocoAPI

3] - APAPAP (所有 10 个 IoU 阈值和全部 80 个类别的平均值) 作为最终 COCO竞赛胜者的标准. 在考虑目标检测器再 COCO 上的性能时，这是单个最重要的评价度量指标.

2025-03-25 21:51:42 1769

原创常见的采样方法

含义：中心采样是一种用于确定目标的中心点是否在特征图的某个单元格内的采样方法。这种方法特别适用于那些关注目标中心点的检测算法。（比如那些anchor-base的目标检测方法）作用：它通过将目标的中心点映射到特征图上，来预测目标的位置。这种方法有助于减少计算量，因为它只关注那些可能包含目标中心的单元格。特点：中心采样通常与高分辨率的特征图配合使用，以提高小目标的检测精度。（因此在使用中心采样之前会进行上采样，以获得更高分辨率的图像）

2025-03-25 20:21:44 399

原创人脸识别技术

人脸识别的(Face Verification): 判定两张人脸图像是否属于同一个人，常用于身份认证如人证核验。(Face Identification): 给定一张人脸图像，判断是否在中，若在则返回具体的身份信息，常用于静态检索或动态布控。(Face Clustering): 给定一批人脸图像，将相同人的图像归类到同一个类，不同人的划分为不同的类，常见的应用有智能相册、一人一档等。

2025-03-22 10:39:30 487

原创 Pascal VOC数据集介绍

val.txt和文件里记录的是对应标注文件的索引，每一行对应一个索引信息。

2025-03-19 21:51:44 277

原创高斯核使用

高斯核(Gaussian Kernel)是一种常用的核函数，用于计算两个样本之间的相似度。高斯核定义为一个二维或多维空间中的高斯分布函数，其形状和宽度可以通过参数调整。对于距离较近的样本，高斯核值较大，表示样本之间的相似性较强；对于距离较远的样本，高斯核值较小，表示样本之间的相似性较弱。

2025-03-19 15:08:00 369

原创 Conv2D &max pooling

nn.Conv 不改变图片大小，只改变维度。

2025-03-18 15:19:54 190

原创找代码/查询论文被引用

①②③。

2025-03-17 19:32:07 371

原创 YOLO--目标检测

YOLO（You Only Look Once）格式通常用于目标检测任务中的标注数据格式。YOLO的标注格式包括每个目标的类别和其在图像中的位置（bounding box）。YOLO格式的标注文件是一个文本文件，每一行表示一个目标，内容包括目标类别的编号和该目标在图像中的位置（相对于图像的比例）。yolo标签文件是纯文本文件（.txt），每张图片对应一个文本文件。

2025-03-17 11:38:00 2460

原创 CenterNet

CenterNet可以完成目标检测，肢体识别和3D目标检测三种任务。

2025-03-16 11:17:49 561

原创清华源镜像地址

清华源镜像地址清华源镜像地址。

2025-03-13 17:00:03 1343

原创 DLANet结构

特征融合选择level2\3\4\5层级进行融合，最后输出多尺度特征。经过level0输出 →16✖384✖1280。经过level1输出 →32✖192✖640。经过level3输出 →128✖48✖160。经过level2输出 →64✖96✖320。经过level4输出 →256✖24✖80。经过level5输出 →512✖12✖40。经过base_layer输出→16✖384✖1280。

2025-03-11 16:35:59 284

原创目标检测模型-1

CenterNet作为无锚框的检测方法之一，主要原理是对backbone产生的feature map进行再次处理：将其后面接入一个名为，利用，同时设计通过中心点回归到其他目标属性上，通过图像信息回归（Primary Regression Heads）到目标基本信息。

2025-03-11 12:00:08 757

原创快速根据environment.yml 文件部署环境

解决依据environmen.yml安装环境

2025-03-08 11:04:19 749

原创 transformer位置编码

请问transformer位置编码后的结果与原始数据的embeeding相加存在类型不一致问题，如何解决？

2023-12-24 23:37:34 116

monster000w的博客

原创安装torch

原创 https://pypi.tuna.tsinghua.edu.cn/simple/

原创容器云2.7pytorch版本安装问题

原创大模型微调过程

原创 MAE复现过程

原创 MAE复现过程

原创快速安装GPU版pytorch

原创采样、带宽

原创空洞/膨胀卷积

原创调制宽带转换器

原创通道降维方式

原创 Hourglass网络

原创 FCOS目标检测

原创 DSSD框架

原创 SSD目标检测

原创 YOLO与SSD对比

原创 YOLO系列

原创 Focal Loss

原创 PAN路径聚合

原创 ResNet系列

原创 MSCA模块

原创 resnet结构介绍

原创模型/模块梳理

原创 cocoAPI

原创常见的采样方法

原创人脸识别技术

原创 Pascal VOC数据集介绍

原创高斯核使用

原创 Conv2D &max pooling

原创找代码/查询论文被引用

原创 YOLO--目标检测

原创 CenterNet

原创清华源镜像地址

原创 DLANet结构

原创目标检测模型-1

原创快速根据environment.yml 文件部署环境

原创 transformer位置编码

空空如也

空空如也