- 博客(98)
- 资源 (7)
- 收藏
- 关注
原创 无人机图像语义分割数据集(aeroscapes数据集)使用方法
数据集介绍aeroscapes数据集下载链接AeroScapes 航空语义分割基准包括使用商用无人机在 5 到 50 米的高度范围内捕获的图像。该数据集提供 3269 张 720p 图像和 11 个类别的真实掩码。数据加载dataloder写法(基于pytorch)由于该数据集提供了掩码图,因此不需要进行掩码图转换。下载完成后,文件结构如下:ImageSets文件夹:存放了两个txt文件,划分了训练集和验证集。JPEGImages文件夹:存放了RGB图像。SegmentationClass
2021-11-22 17:20:09 21422 11
原创 无人机语义分割数据集(Semantic Drone Dataset)使用方法
数据集介绍Semantic Drone Dataset数据集下载地址该语义无人机数据集专注于城市场景的语义理解,以提高无人机自主飞行和着陆程序的安全性。该图像描绘了在距地面 5 至 30 米的高度从最低点(鸟瞰)视角拍摄的 20 多座房屋。高分辨率相机用于获取尺寸为 6000x4000px (24Mpx) 的图像。训练集包含 400 张公开可用的图像,测试集包含 200 张私有图像。该语义分割数据集包括20个种类:树、草、其他植被、污垢、碎石岩石、水、铺砌面积、水池、人狗、车、自行车、屋顶、墙
2021-11-21 22:21:09 5733 7
原创 扩散模型——为什么时间步的嵌入非常重要?
时间步嵌入帮助模型理解扩散过程中的不同阶段,并为模型提供每个时间步的高维特征表示。使用正余弦编码作为时间步嵌入,不仅能够捕捉时间步中的周期性变化,还能够提供多尺度的特征表示,帮助模型在生成过程中做出更加精确的去噪决策。同时,它不会增加模型的训练参数,保证了效率和稳定性。
2024-10-12 09:47:02 563
原创 大模型微调4:Alpaca模型微调、Adalora、Qlora
4. pre-train的时候加入Instruction data,接着在SFT上再使用Instruction Data。2. 通用Instruction data和私有 Instruction data混合,可以解决某些能力的遗忘。3. 收集大量的Finetune Data:一万到十万,高质量7K>一般质量30K。通用的Instruction data(适合我们场景的)7B、13B、33B、65B四种基座模型(一般从小的开始训)结构上与Transformer经典结构差距很小。
2024-09-28 17:47:51 347
原创 大模型开发工具库Hugging Face Transformers
• Hugging Face Transformers 快速入门Hugging Face Transformers 是一个 Python库,允许用户下载和训练机器学习(ML)模型。它最初被创建用于开发语言模型,现在功能已扩展到包括多模态、计算机视觉和音频处理等其他用途的模型。1. 丰富的预训练模型:提供广泛的预训练模型,如BERT、GPT、T5等,适用于各种NLP任务。2. 易于使用:设计注重易用性,使得即使没有深厚机器学习背景的开发者也能快速上手。
2024-09-26 09:12:35 249
原创 Windows 查找特定进程的ID并杀死
OSName : Microsoft Windows 11 专业版|C:\windows|\Device\Harddisk1\Partition3。CommandLine : "D:\Users\HP\anaconda3\envs\openai\python.exe" 分析用户信息.py。杀死特定进程 15832为上述的ProcessId。"*分析用户信息.py*" 换为自己的文件名。
2024-09-23 10:04:41 759
原创 关于Resume训练 精度对齐的思考
如果想要精度对齐,需要Resume 正确的 state_dict,正确的学习率调度器,正确的恢复优化器的状态,同时还需要设置相同的随机种子。
2024-06-20 14:54:09 183
原创 ZeRO-3、模型并行、流水线并行适用情况
ZeRO-3适用于参数量大,需要显存优化的情况。模型并行适用于计算量大,但每层参数量相对较少的情况。流水线并行适用于计算量大且需要高效利用多 GPU 资源的情况。这三种方法可以根据具体的模型和训练需求进行选择和组合使用,以达到最优的显存利用和计算效率。
2024-05-23 17:29:46 427
原创 【唇形同步】Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization
嘴唇同步的任务(唇同步)寻求将人脸的嘴唇与不同的音频相匹配。它在电影行业以及创建虚拟化身和视频会议中有各种应用。这是一个具有挑战性的问题,因为人们需要同时引入详细、逼真的嘴唇动作,同时保持身份、姿势、情绪和图像质量。许多试图解决这个问题的先前方法由于缺乏完整的上下文信息而遭受图像质量下降。在本文中,我们提出了Diff2Lip,这是一种基于音频条件扩散的模型,它能够在保持这些质量的同时在野外进行嘴唇同步。我们在Voxceleb2上训练我们的模型,这是一个视频数据集,包含狂野的会说话的人脸视频。
2024-05-10 16:50:26 805
原创 OpenSora代码理解(一)Video Embedding
这段代码定义了一个用于将视频数据划分为块并嵌入到高维空间的类。下面我们会一步步分析forward。
2024-05-08 08:56:58 604
原创 【文生视频】InternVid: A Large-scale Video-Text Dataset forMultimodal Understanding and Generation
我们的核心贡献是开发一种可扩展的方法,用大型语言模型(LLM)自主构建高质量的视频文本数据集,提供视频文本表示学习模型ViCLIP。目前的研究依赖于HowTo100M[2]、HD-VILA[3]和YTTemporal[4,5]等数据集,这些数据集的文本是使用自动语音识别(ASR)生成的。尽管规模很大,但这些数据集在视频和相应的文本描述之间的语义相关性往往很低[2-5]。实证研究表明,改善这种相关性(例如,将视频与字幕对齐以提高其匹配性)显著有利于视频检索和视频问答等下游任务[6]。文本视频对齐非常重要。We
2024-04-25 17:38:01 1325 2
原创 【VSCode调试技巧】Pytorch分布式训练调试
2、配置launch.josn文件,按照正确的参数顺序,填入args参数,注意区分位置参数和可选参数,debug文件前面的参数是分布式训练的参数,后面为该文件所需的参数。这个顺序和命令行执行的顺序一致,所以可参考命令行的顺序。1、找到控制分布式训练的启动脚本,在自己的虚拟环境的/lib/python3.9/site-packages/torch/distributed/launch.py中。最近遇到个头疼的问题,对于单机多卡的训练脚本,不知道如何使用VSCode进行Debug。
2024-04-24 15:02:41 918 1
原创 【图像拼接 精读】Parallax-Tolerant Unsupervised Deep Image Stitching
这些方法主要依赖于越来越复杂的几何特征(如点、线、边缘等)来提高性能。但是,这些手工制作的特征通常只适用于具有充足几何结构的特定自然场景。这意味着,当场景缺乏明显的几何特征或纹理时,这些方法的效果可能会大大降低。
2024-01-29 11:17:06 2076
原创 DMNet复现(二)之模型篇:Density map guided object detection in aerial image
以前用Swin Transformer Tiny训练了40epoch的,官方用的Faster RCNN,这里先用Swin Transformer Tiny进行测试。
2023-09-19 18:25:51 650 6
原创 DMNet复现(一)之数据准备篇:Density map guided object detection in aerial image
DMNet论文复现(一):数据准备
2023-09-18 14:29:31 1106 24
原创 【MMDetection】bug记录
以下命令可以打印出配置文件所有信息,如打印configs\yolox\yolox_s_8xb8-300e_coco.py。
2023-09-08 14:08:46 1159
原创 linux常会用到的命令
复制文件时排除某个文件夹,如从源路径中排除data。搜索含有指定字符的进程信息,如radar。删除指定后缀的文件,如png。
2023-08-23 13:42:06 245
原创 关于Transformer中的位置编码
在图像处理中,位置编码的引入与自然语言处理中的方法有所不同,但基本的原理是相似的:为模型提供空间位置信息。例如,对于一个给定的位置,其与其他位置的相对位置编码将表示它们之间的距离或关系。绝对位置编码是为序列中的每个位置分配一个固定的编码,这个编码表示该位置在整个序列中的确切位置。与位置编码不同,位置嵌入是在模型训练过程中学习的,而不是预先定义的。在某些应用中,可能需要同时使用多种方法来捕获位置信息,例如,结合绝对位置编码和相对位置编码。为图像中的每个像素或区域分配一个固定的编码,表示其在图像中的绝对位置。
2023-08-18 14:23:32 2075
原创 目标检测之3维合成
现在有一系列的图片,图片之间可以按照z轴方向进行排列。图片经过了目标检测,输出了一列写的检测框,现在的需求是将检测框按类别进行合成,以在3维上生成检测结果。思路:将图片按照z轴方向排列,以z轴索引作为检测框的z值。等同于输入为(x, y, w, h, z, class_id),可以计算得到每个检测框的中心点来标定这个框(x_center, y_center, z, class_id)。然后可以通过聚类算法在4维空间上进行聚类,最后取出聚类出的每一类的点的xyz的最大值与最小值和class_id来生成
2023-07-28 10:47:55 778
原创 [MMDetection]生成测试集预测的test.bbox.json文件
将里面的路径全部换为自己的路径,最重要的是将以下注释取消掉,特别注意以下两个参数。困扰了大半天的问题,终于解决了。
2023-07-10 17:46:00 2798 8
原创 [MMDetection]测试模型
python tools/test.py config文件路径 权重文件路径 --show-dir 文件保存路径。同时绘制分类损失和回归损失,同时还可以指定--out losses.pdf,将结果保存为PDF文档。loss数据一般保存在训练文件夹的vis_data中的scalars.json文件中,如以下路径。python tools/test.py config文件路径 权重文件路径 --show。python tools/test.py config文件路径 权重文件路径。
2023-07-10 17:15:16 1106
原创 [探地雷达]预处理
由于在探测过程中存在热漂移、电子元器件的不稳定、电缆长度的不同以及天线距 地表的空隙间距的变化,这都会导致最初到达的地表回波在时间轴上产生“偏移”。这 将会影响该记录剖面图中地表的位置,影响到后续散射信号对应的时序,所以在正式处 理前,需要对多道数据进行起始时间的校正,统一调整使其与地表位置相匹配,以获得 一个统一的时间零点。因此,在数据接收处理阶段, 需要对波形进行校正,确保每道数据的 A-scan 值的平均值接近于零。接下来,将该道的每个数据点减去 其均值,从而得到去除直流分量后的数据。
2023-07-10 09:54:06 1927 3
原创 windows11、Rtx3060Ti安装mmdetection
下载 C++套件生成工具,安装以下工具。安装cuda、torch等。安装mmdetection。安装mmengine。
2023-07-05 17:59:36 219
原创 [探地雷达]利用Faster RCNN对B-SCAN探地雷达数据进行目标检测
由于真实雷达图像较少,作者采用了GPR工具箱,使用不同配置,合成了部分模拟雷达图。然后采用Cifar-10数据(灰度图)对Faster RCNN进行预训练,再采用真实和合成数据进行微调。论文地址。
2023-07-03 10:15:03 2315 5
原创 Windows11 anaconda配置pytorch环境
生成 .condarc 文件,位于C:\Users\Admin\。在虚拟环境中安装pytorch、torchvision、cuda。
2023-06-28 17:04:21 582
原创 使用thop库分析模型的参数量、运算量、帧率
GFLOPs FLOPs 是浮点运算次数,可以用来衡量算法/模型复杂度GFLOPs。为十亿(1e9)次的浮点运算。Latency 网络前向传播的时间,1 ms=1e-3 s,10.5ms=0.0105s。FPS 每秒传输帧数,FPS=1/Latency,1/0.0105=95.2。Parameters 参数量,指模型含有多少参数。测试模型参数量和Flops。
2023-06-12 22:40:22 1338
原创 【矩池云】DeepLabV3Plus网络,预测无人机遥感语义分割数据集
编码器特征首先以因子4进行双线性上采样,然后与来自网络主干的具有相同空间分辨率的对应低级特征进行级联[73](例如,在ResNet-101中跨步之前的Conv 2 [25])。1. 在图像分类中,下采样倍率是32,语义分割中,下采样倍率一般为16或8,对于语义分割的任务,比如 可以在ResNet中,通过移除最后一个(或两个)块中的步幅并相应地应用atrous卷积(例如,对于输出stride= 8,我们将空洞卷积率= 2和空洞卷积率= 4分别应用于最后两个块)解决办法:将错误语句换为以下语句。
2023-05-11 20:58:50 1683 19
原创 【矩池云】FusionGan环境搭建
目的是让,If将逐渐包含可见光图像Iv中越来越多的细节信息,如果在训练阶段期间,一旦生成器GθG生成样本(即,如果)不能被鉴别器DθD区分,则期望的融合图像If,说明包含了足够多的细节信息。其中a和B分别表示融合图像If和可见光图像Iv的标签,DθD(Iv)和DθD(If)分别表示可见光图像和融合图像的分类结果。Lcontent的第一项旨在保持融合图像If中的红外图像Ir的热辐射信息,Lcontent的第二项旨在保持可见图像Iv中包含的梯度信息,并且ξ是控制两项之间的折衷的正参数。
2023-05-10 21:47:25 1163 4
原创 刷题笔记8| 344.反转字符串, 541. 反转字符串II, 剑指Offer 05.替换空格
在遍历字符串的过程中,只要让 i += (2 * k),i 每次移动 2 * k 就可以了,然后判断是否需要有反转的区间。给定一个字符串 s 和一个整数 k,从字符串开头算起,每计数至 2k 个字符,就反转这 2k 字符中的前 k 个字符。不要给另外的数组分配额外的空间,你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。如果剩余字符小于 2k 但大于或等于 k 个,则反转前 k 个字符,其余字符保持原样。创建一个新字符串s1,每当遍历到字符串s中的空格时,就添加%20,否则添加原字母。
2023-05-07 11:58:56 510
原创 中钞科信算法岗面经
1 笔试,笔试内容包括深度学习,图像处理,opencv,优化理论2 初面问题1 你对我们公司了解吗问题2 传统图像处理和深度学习图像处理区别问题3 卷积的公式问题4 画出sigmoid和ReLU的图形问题5 均值滤波和中值滤波介绍,区别问题6 椒盐噪声用什么方法处理,从数学角度解释问题7 介绍BP神经网络,包括哪些层问题8 相对于Bp神经网络,深度卷积神经网络为什么可以做到更深问题9 介绍发的论文问题10 是否接受出差问题11 全连接层和1*1卷积的区别问
2023-03-15 13:34:59 387
原创 刷题笔记7 | 454.四数相加II 、383. 赎金信 、 15. 三数之和 、 18. 四数之和 、 总结
刷题笔记7 | 454.四数相加II 、383. 赎金信 、 15. 三数之和 、 18. 四数之和 、 总结
2023-03-08 20:10:46 339
人大 大模型书籍 与英文综述文章的定位不同,中文版书籍更注重为大模型技术的入门读者提供讲解
2024-10-30
蓝桥杯第九届彩灯控制器源码
2019-03-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人