开始学AI-CSDN博客

原创【矩池云】YOLOv3~YOLOv5训练红外小目标数据集

YOLO系列算法，红外小目标检测，从数据集处理到完整实现

2023-05-31 13:58:51 4375 12

原创无人机图像语义分割数据集（aeroscapes数据集）使用方法

数据集介绍aeroscapes数据集下载链接AeroScapes 航空语义分割基准包括使用商用无人机在 5 到 50 米的高度范围内捕获的图像。该数据集提供 3269 张 720p 图像和 11 个类别的真实掩码。数据加载dataloder写法（基于pytorch）由于该数据集提供了掩码图，因此不需要进行掩码图转换。下载完成后，文件结构如下：ImageSets文件夹：存放了两个txt文件，划分了训练集和验证集。JPEGImages文件夹：存放了RGB图像。SegmentationClass

2021-11-22 17:20:09 22501 11

原创无人机语义分割数据集（Semantic Drone Dataset）使用方法

数据集介绍Semantic Drone Dataset数据集下载地址该语义无人机数据集专注于城市场景的语义理解，以提高无人机自主飞行和着陆程序的安全性。该图像描绘了在距地面 5 至 30 米的高度从最低点（鸟瞰）视角拍摄的 20 多座房屋。高分辨率相机用于获取尺寸为 6000x4000px (24Mpx) 的图像。训练集包含 400 张公开可用的图像，测试集包含 200 张私有图像。该语义分割数据集包括20个种类：树、草、其他植被、污垢、碎石岩石、水、铺砌面积、水池、人狗、车、自行车、屋顶、墙

2021-11-21 22:21:09 6761 10

原创大模型显存计算

它们是模型从大量文本数据中学习的结果，不仅编码token的身份，还编码其与其他token的关系。token限制由模型的架构决定。在文本上下文中，一个Token可以是一个单词、一个单词的一部分（子词），甚至是一个字符——这取决于tokenization 的过程。例如，如果您需要微调大小为 1024×512 的参数，使用选择rank为 8 的 LoRA，您只需要微调以下数量的参数：1024×8 + 512×8。在训练大型语言模型时，参数是 LLM 的特征，经过调整可以优化模型预测序列中下一个token的能力。

2025-04-10 20:20:13 459

原创大模型之模型参数量估计/GPU计算时间计算

模型的参数越多，其复杂度就越高，能够处理的数据也越多。它们是模型从大量文本数据中学习的结果，不仅编码token的身份，还编码其与其他token的关系。反向传播、Adam 优化和 Transformer 架构，训练所需的内存通常是相同大小的 LLM 推理所需内存的 3 到 4 倍。例如，如果您需要微调大小为 1024×512 的参数，使用选择rank为 8 的 LoRA，您只需要微调以下数量的参数：1024×8 + 512×8。模型的参数越多，其复杂度就越高，能够处理的数据也越多。

2025-04-10 20:14:22 952

原创【Windows+Cursor】从0到1配置Arxiv MCP Server，实现论文自主查询、下载、分析、综述生成

4.在「Cursor Settings」菜单栏中点击「MCP」，然后点击「+ Add new global MCP server」按钮，会弹出一个mcp.json文件，把arxiv-mcp-server中的配置信息添加到json文件中去。5. 配置自己的API KEY，其余模型去掉。3. 下载0.47版本以上的Cursor。2. git clone 代码。将安装路径添加到环境变量。

2025-04-02 16:27:02 709

原创扩散模型——为什么时间步的嵌入非常重要？

时间步嵌入帮助模型理解扩散过程中的不同阶段，并为模型提供每个时间步的高维特征表示。使用正余弦编码作为时间步嵌入，不仅能够捕捉时间步中的周期性变化，还能够提供多尺度的特征表示，帮助模型在生成过程中做出更加精确的去噪决策。同时，它不会增加模型的训练参数，保证了效率和稳定性。

2024-10-12 09:47:02 2974

原创大模型微调4：Alpaca模型微调、Adalora、Qlora

4. pre-train的时候加入Instruction data，接着在SFT上再使用Instruction Data。2. 通用Instruction data和私有 Instruction data混合，可以解决某些能力的遗忘。3. 收集大量的Finetune Data：一万到十万，高质量7K>一般质量30K。通用的Instruction data（适合我们场景的）7B、13B、33B、65B四种基座模型（一般从小的开始训）结构上与Transformer经典结构差距很小。

2024-09-28 17:47:51 447

原创大模型开发工具库Hugging Face Transformers

• Hugging Face Transformers 快速入门Hugging Face Transformers 是一个 Python库，允许用户下载和训练机器学习（ML）模型。它最初被创建用于开发语言模型，现在功能已扩展到包括多模态、计算机视觉和音频处理等其他用途的模型。1. 丰富的预训练模型：提供广泛的预训练模型，如BERT、GPT、T5等，适用于各种NLP任务。2. 易于使用：设计注重易用性，使得即使没有深厚机器学习背景的开发者也能快速上手。

2024-09-26 09:12:35 374

原创 LLM—各种任务的训练数据集格式

LLM各种任务的训练数据集格式。

2024-09-24 14:25:09 953

原创 Windows 查找特定进程的ID并杀死

OSName : Microsoft Windows 11 专业版|C:\windows|\Device\Harddisk1\Partition3。CommandLine : "D:\Users\HP\anaconda3\envs\openai\python.exe" 分析用户信息.py。杀死特定进程 15832为上述的ProcessId。"*分析用户信息.py*" 换为自己的文件名。

2024-09-23 10:04:41 928

原创关于Resume训练精度对齐的思考

如果想要精度对齐，需要Resume 正确的 state_dict，正确的学习率调度器，正确的恢复优化器的状态，同时还需要设置相同的随机种子。

2024-06-20 14:54:09 424

原创 ZeRO-3、模型并行、流水线并行适用情况

ZeRO-3适用于参数量大，需要显存优化的情况。模型并行适用于计算量大，但每层参数量相对较少的情况。流水线并行适用于计算量大且需要高效利用多 GPU 资源的情况。这三种方法可以根据具体的模型和训练需求进行选择和组合使用，以达到最优的显存利用和计算效率。

2024-05-23 17:29:46 1058

原创【唇形同步】Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization

嘴唇同步的任务（唇同步）寻求将人脸的嘴唇与不同的音频相匹配。它在电影行业以及创建虚拟化身和视频会议中有各种应用。这是一个具有挑战性的问题，因为人们需要同时引入详细、逼真的嘴唇动作，同时保持身份、姿势、情绪和图像质量。许多试图解决这个问题的先前方法由于缺乏完整的上下文信息而遭受图像质量下降。在本文中，我们提出了Diff2Lip，这是一种基于音频条件扩散的模型，它能够在保持这些质量的同时在野外进行嘴唇同步。我们在Voxceleb2上训练我们的模型，这是一个视频数据集，包含狂野的会说话的人脸视频。

2024-05-10 16:50:26 1798

原创 OpenSora代码理解（一）Video Embedding

这段代码定义了一个用于将视频数据划分为块并嵌入到高维空间的类。下面我们会一步步分析forward。

2024-05-08 08:56:58 788

原创【文生视频】InternVid: A Large-scale Video-Text Dataset forMultimodal Understanding and Generation

我们的核心贡献是开发一种可扩展的方法，用大型语言模型（LLM）自主构建高质量的视频文本数据集，提供视频文本表示学习模型ViCLIP。目前的研究依赖于HowTo100M[2]、HD-VILA[3]和YTTemporal[4，5]等数据集，这些数据集的文本是使用自动语音识别（ASR）生成的。尽管规模很大，但这些数据集在视频和相应的文本描述之间的语义相关性往往很低[2-5]。实证研究表明，改善这种相关性（例如，将视频与字幕对齐以提高其匹配性）显著有利于视频检索和视频问答等下游任务[6]。文本视频对齐非常重要。We

2024-04-25 17:38:01 1810 2

原创【VSCode调试技巧】Pytorch分布式训练调试

2、配置launch.josn文件，按照正确的参数顺序，填入args参数，注意区分位置参数和可选参数，debug文件前面的参数是分布式训练的参数，后面为该文件所需的参数。这个顺序和命令行执行的顺序一致，所以可参考命令行的顺序。1、找到控制分布式训练的启动脚本，在自己的虚拟环境的/lib/python3.9/site-packages/torch/distributed/launch.py中。最近遇到个头疼的问题，对于单机多卡的训练脚本，不知道如何使用VSCode进行Debug。

2024-04-24 15:02:41 1551 2

原创【图像拼接精读】Parallax-Tolerant Unsupervised Deep Image Stitching

这些方法主要依赖于越来越复杂的几何特征（如点、线、边缘等）来提高性能。但是，这些手工制作的特征通常只适用于具有充足几何结构的特定自然场景。这意味着，当场景缺乏明显的几何特征或纹理时，这些方法的效果可能会大大降低。

2024-01-29 11:17:06 3063

原创最小二乘法

来源：

2023-10-30 16:45:19 822

原创 DMNet复现(二)之模型篇：Density map guided object detection in aerial image

以前用Swin Transformer Tiny训练了40epoch的，官方用的Faster RCNN，这里先用Swin Transformer Tiny进行测试。

2023-09-19 18:25:51 868 11

原创 DMNet复现(一)之数据准备篇：Density map guided object detection in aerial image

DMNet论文复现（一）：数据准备

2023-09-18 14:29:31 1368 25

原创【MMDetection】bug记录

以下命令可以打印出配置文件所有信息，如打印configs\yolox\yolox_s_8xb8-300e_coco.py。

2023-09-08 14:08:46 1480

原创 linux常会用到的命令

复制文件时排除某个文件夹，如从源路径中排除data。搜索含有指定字符的进程信息，如radar。删除指定后缀的文件，如png。

2023-08-23 13:42:06 283

原创关于Transformer中的位置编码

在图像处理中，位置编码的引入与自然语言处理中的方法有所不同，但基本的原理是相似的：为模型提供空间位置信息。例如，对于一个给定的位置，其与其他位置的相对位置编码将表示它们之间的距离或关系。绝对位置编码是为序列中的每个位置分配一个固定的编码，这个编码表示该位置在整个序列中的确切位置。与位置编码不同，位置嵌入是在模型训练过程中学习的，而不是预先定义的。在某些应用中，可能需要同时使用多种方法来捕获位置信息，例如，结合绝对位置编码和相对位置编码。为图像中的每个像素或区域分配一个固定的编码，表示其在图像中的绝对位置。

2023-08-18 14:23:32 2551

原创目标检测之3维合成

现在有一系列的图片，图片之间可以按照z轴方向进行排列。图片经过了目标检测，输出了一列写的检测框，现在的需求是将检测框按类别进行合成，以在3维上生成检测结果。思路：将图片按照z轴方向排列，以z轴索引作为检测框的z值。等同于输入为（x, y, w, h, z, class_id），可以计算得到每个检测框的中心点来标定这个框（x_center, y_center, z, class_id）。然后可以通过聚类算法在4维空间上进行聚类，最后取出聚类出的每一类的点的xyz的最大值与最小值和class_id来生成

2023-07-28 10:47:55 845

原创 [MMDetection]绘制PR图

[MMDetection]绘制PR图

2023-07-11 10:42:01 2537

原创 [MMDetection]生成测试集预测的test.bbox.json文件

将里面的路径全部换为自己的路径，最重要的是将以下注释取消掉，特别注意以下两个参数。困扰了大半天的问题，终于解决了。

2023-07-10 17:46:00 3683 12

原创 [MMDetection]测试模型

python tools/test.py config文件路径权重文件路径 --show-dir 文件保存路径。同时绘制分类损失和回归损失，同时还可以指定--out losses.pdf，将结果保存为PDF文档。loss数据一般保存在训练文件夹的vis_data中的scalars.json文件中，如以下路径。python tools/test.py config文件路径权重文件路径 --show。python tools/test.py config文件路径权重文件路径。

2023-07-10 17:15:16 1540

原创 [探地雷达]预处理

由于在探测过程中存在热漂移、电子元器件的不稳定、电缆长度的不同以及天线距地表的空隙间距的变化，这都会导致最初到达的地表回波在时间轴上产生“偏移”。这将会影响该记录剖面图中地表的位置，影响到后续散射信号对应的时序，所以在正式处理前，需要对多道数据进行起始时间的校正，统一调整使其与地表位置相匹配，以获得一个统一的时间零点。因此，在数据接收处理阶段，需要对波形进行校正，确保每道数据的 A-scan 值的平均值接近于零。接下来，将该道的每个数据点减去其均值，从而得到去除直流分量后的数据。

2023-07-10 09:54:06 2857 3

原创 [MMDetection]VOC数据格式转为COCO数据格式

[MMDetection]VOC数据格式转为COCO数据格式

2023-07-08 15:15:39 1153

原创 [MMDetection]COCO数据集可视化验证

[MMDetection]COCO数据集可视化验证

2023-07-08 14:45:19 828 2

原创 windows11、Rtx3060Ti安装mmdetection

下载 C++套件生成工具，安装以下工具。安装cuda、torch等。安装mmdetection。安装mmengine。

2023-07-05 17:59:36 260

原创 [探地雷达]利用Faster RCNN对B-SCAN探地雷达数据进行目标检测

由于真实雷达图像较少，作者采用了GPR工具箱，使用不同配置，合成了部分模拟雷达图。然后采用Cifar-10数据（灰度图）对Faster RCNN进行预训练，再采用真实和合成数据进行微调。论文地址。

2023-07-03 10:15:03 3201 6

原创 Windows11 anaconda配置pytorch环境

生成 .condarc 文件，位于C:\Users\Admin\。在虚拟环境中安装pytorch、torchvision、cuda。

2023-06-28 17:04:21 629

原创使用thop库分析模型的参数量、运算量、帧率

GFLOPs FLOPs 是浮点运算次数，可以用来衡量算法/模型复杂度GFLOPs。为十亿（1e9）次的浮点运算。Latency 网络前向传播的时间，1 ms=1e-3 s，10.5ms=0.0105s。FPS 每秒传输帧数，FPS=1/Latency，1/0.0105=95.2。Parameters 参数量，指模型含有多少参数。测试模型参数量和Flops。

2023-06-12 22:40:22 1508

原创【矩池云】DeepLabV3Plus网络，预测无人机遥感语义分割数据集

编码器特征首先以因子4进行双线性上采样，然后与来自网络主干的具有相同空间分辨率的对应低级特征进行级联[73]（例如，在ResNet-101中跨步之前的Conv 2 [25]）。1. 在图像分类中，下采样倍率是32，语义分割中，下采样倍率一般为16或8，对于语义分割的任务，比如可以在ResNet中，通过移除最后一个（或两个）块中的步幅并相应地应用atrous卷积（例如，对于输出stride= 8，我们将空洞卷积率= 2和空洞卷积率= 4分别应用于最后两个块）解决办法：将错误语句换为以下语句。

2023-05-11 20:58:50 2075 21

原创压缩命令-排除某些文件进行压缩

需求：zip打包某个目录但是要排除目录下某个文件或者某个目录。-x参数后加要排除的文件或目录的完整路径。

2023-05-11 16:13:57 1856

原创【矩池云】FusionGan环境搭建

目的是让，If将逐渐包含可见光图像Iv中越来越多的细节信息，如果在训练阶段期间，一旦生成器GθG生成样本（即，如果）不能被鉴别器DθD区分，则期望的融合图像If，说明包含了足够多的细节信息。其中a和B分别表示融合图像If和可见光图像Iv的标签，DθD（Iv）和DθD（If）分别表示可见光图像和融合图像的分类结果。Lcontent的第一项旨在保持融合图像If中的红外图像Ir的热辐射信息，Lcontent的第二项旨在保持可见图像Iv中包含的梯度信息，并且ξ是控制两项之间的折衷的正参数。

2023-05-10 21:47:25 1397 5

原创刷题笔记8| 344.反转字符串, 541. 反转字符串II, 剑指Offer 05.替换空格

在遍历字符串的过程中，只要让 i += (2 * k)，i 每次移动 2 * k 就可以了，然后判断是否需要有反转的区间。给定一个字符串 s 和一个整数 k，从字符串开头算起，每计数至 2k 个字符，就反转这 2k 字符中的前 k 个字符。不要给另外的数组分配额外的空间，你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。如果剩余字符小于 2k 但大于或等于 k 个，则反转前 k 个字符，其余字符保持原样。创建一个新字符串s1，每当遍历到字符串s中的空格时，就添加%20，否则添加原字母。

2023-05-07 11:58:56 531

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

人大 大模型书籍 与英文综述文章的定位不同，中文版书籍更注重为大模型技术的入门读者提供讲解

大模型信息抽取 程序模板

ResNet18_CIFAR10.rar

BiSeNet.zip

color150.mat

AlexNet手写数字识别.rar

手写数字识别.rar

deeplabv3.rar

蓝桥杯第九届彩灯控制器源码

空空如也

人大大模型书籍与英文综述文章的定位不同，中文版书籍更注重为大模型技术的入门读者提供讲解

大模型信息抽取程序模板