- 博客(68)
- 资源 (2)
- 收藏
- 关注
原创 HAWP算法环境配置windows下
本文介绍了HAWP算法的安装配置流程:1)安装CUDA Toolkit 11.6;2)创建Anaconda环境并克隆代码仓库;3)安装PyTorch 1.12及CUDA 11.6版本的依赖包;4)安装Ninja构建工具和项目依赖;5)验证环境配置并指定kornia版本为0.6.9。整个过程详细说明了从环境搭建到依赖安装的完整步骤,适用于Windows/Linux系统。
2026-01-05 22:52:32
212
原创 大疆算力开发:安装mmyolo
第二步:新建一个“专门给 DJI 用”的 mmyolo v0.6.0。算力开放平台上传训练好的pth文件和图像zip的压缩包。第三步:在这个 v0.6.0 里打大疆的 patch。使用git status验证是否成功,看到很多。第一步:安装mmyolo。,说明补丁确实生效了。
2025-12-09 18:44:36
304
3
原创 使用MobaXterm在局域网里连接不上windows电脑
本文介绍了在Windows10系统中配置OpenSSH Server的步骤。首先通过services.msc检查是否已安装OpenSSH SSH Server服务,若未安装则需以管理员身份运行PowerShell执行安装命令。安装完成后需要启动服务并设置为开机自动启动。最后建议使用MobaXterm工具在局域网内连接Windows电脑。该指南提供了从检查到安装配置的一站式解决方案,帮助用户快速建立SSH连接环境。
2025-11-13 21:41:43
407
原创 大恒工业相机使用python获取画面(windows和linux均适用)
这段Python代码实现了一个相机图像采集程序,使用gxipy库控制工业相机,并通过OpenCV显示实时画面。主要功能包括:1)检测并打开相机设备;2)设置曝光时间(30μs)和自动白平衡;3)以连续采集模式获取图像;4)将图像转换为numpy数组并进行亮度和对比度调整;5)通过OpenCV窗口显示画面,按'q'键退出。程序会处理不同操作系统下的颜色格式转换,并在退出时正确释放相机资源。此代码适用于Windows/Linux系统下的工业相机图像采集场景。
2025-10-26 19:39:38
248
原创 本地安装yolo算法环境的步骤
注意选择好需要安装的平台【--platform win_amd64】代表下载windows64位版本的。注意选择好python版本【--python-version 38】这个38代表python3.8。为避免ultralytics自动安装cpu版本的torch,覆盖第一步安装的gpu版本的torch。在pycharm终端,通过cd 命令,切换到本地torch的安装包所在的文件夹。yolo-requirements.txt 如下。注意选择好下载路径【-d后面的参数为路径】
2025-10-26 18:45:22
369
1
原创 训练好的yolo权重部署到jetson
摘要:本文介绍YOLOv8模型从PyTorch到TensorRT引擎的转换流程。首先在电脑端通过YOLO类加载pt模型并导出为ONNX格式(设置opset=17、动态维度等参数)。然后在Jetson设备上使用TensorRT的Python API构建引擎:解析ONNX模型、配置FP16/FP32精度、处理动态维度输入(设置min/opt/max三种shape),最终生成.engine文件。关键步骤包括内存池限制设置(2GB工作空间)、动态维度检测优化,以及针对图像输入的特殊处理(BCHW格式)。该脚本支持命
2025-10-23 14:09:01
125
原创 jetson和rk3588(arm linux系统)上读取大恒图像工业相机(型号MER-050-560U3C)教程
摘要:本文详细介绍了在Jetson设备上安装GalaxySDK和Python gxipy库并运行相机的完整步骤。主要内容包括:1)下载并安装Linux SDK;2)可选配置USB3/GigE相机参数;3)安装Python SDK及其依赖;4)设置环境变量;5)提供两种测试代码(Jetson和RK板子适用),用于验证相机连接和图像采集功能。文中特别强调了安装路径不能包含中文字符,并针对不同硬件平台提供了对应的解决方案。
2025-09-13 19:46:11
531
1
原创 YOLO预测视频,不显示检测框,只显示mask叠加到原视频
摘要:该代码使用YOLO模型对视频进行目标检测和掩模分割处理。首先加载预训练模型,然后读取视频并设置输出参数。在逐帧处理过程中,对检测到的对象应用掩模,将掩模大小调整为原图尺寸并进行二值化处理,用红色半透明效果标记检测区域。处理后的帧实时显示并保存为新的视频文件,按ESC键可退出程序。最终释放所有资源并关闭窗口。
2025-09-10 10:46:08
168
原创 yolo分割标签转mask格式,yoloseg2mask
本文介绍了一个将YOLOv8-seg标注文件转换为PNG掩码图像的Python脚本。该脚本通过读取YOLOv8格式的文本标签文件,将归一化坐标还原为图像尺寸,在空白掩码上绘制多边形区域,并为掩码添加调色板(背景为黑色,目标为红色)。最终输出PNG格式的掩码图像,便于可视化或进一步处理。脚本自动遍历指定文件夹中的所有图像和对应标签文件,适合批量处理任务。
2025-09-02 16:22:18
241
原创 isat将标签转化为labelme格式后,labelme打不开的解决方案
该解决方案用于自动填充LabelMe格式JSON文件中的imageData字段。操作步骤如下:1.将图片和JSON标签文件统一放入指定文件夹;2.运行提供的Python脚本,该脚本会遍历所有JSON文件,读取对应图片并转换为Base64编码格式,然后写入JSON的imageData字段;3.处理完成后可用LabelMe直接打开文件夹查看结果。脚本包含错误处理机制,会提示缺失imagePath或图片不存在的情况。
2025-08-31 21:59:21
230
原创 Windows下,将本地视频转化成rtsp推流的方法
【摘要】无需RTSP设备,通过MediaMTX和FFmpeg即可将本地视频转为RTSP流:1)安装MediaMTX和FFmpeg;2)配置FFmpeg环境变量;3)启动MediaMTX;4)用FFmpeg命令(示例:ffmpeg -re -stream_loop -1 -i test_video.mp4 -c copy -f rtsp rtsp://localhost:8554/mystream)推送视频至RTSP地址rtsp://localhost:8554/mystream。完整教程包含软件下载与路径设
2025-08-21 22:22:08
623
原创 YOLO运行报错
文章摘要:用户在使用Ultralytics YOLO时遇到CUDA驱动版本过低的问题(当前版本11080/470.x)。PyTorch 2.2.1+cu121要求驱动≥537.xx,导致GPU不可用。解决方案包括:1)升级NVIDIA驱动至537+;2)降级PyTorch至CUDA11.8版本;3)临时使用CPU模式。核心矛盾是系统驱动版本需匹配PyTorch的CUDA runtime最低要求。建议优先升级驱动以获得最佳性能。
2025-08-19 22:48:17
468
原创 yolo环境配置步骤(适用于yolo所有系列)
本文记录了在Windows11系统下(i9+RTX3080Ti)配置YOLOv11环境的完整流程。主要步骤包括:1)安装Anaconda并创建Python3.9虚拟环境;2)安装PyTorch2.2.1+CUDA12.1;3)通过清华镜像源安装ultralytics库;4)处理训练过程中出现的numpy版本冲突问题(需降级至1.26并重装OpenCV);5)成功运行分割模型的训练和预测命令。文中特别强调了环境配置常见错误的解决方法,包括删除Ultralytics缓存文件和调整依赖版本,最终实现了模型训练和预
2025-08-19 12:36:44
1225
原创 COLMAP进行密集重建,三维重建的步骤
本文介绍了在完成稀疏重建后进行密集重建的步骤。首先通过COLMAPGUI完成相机位姿估计和稀疏点云重建后,直接进入密集重建阶段。操作过程包括依次执行1、2、3三个步骤,并导出PLY格式的密集点云数据。最后指出该结果还可用于后续的泊松重建,并展示了泊松重建后的效果图。整个流程为从稀疏重建到密集重建再到泊松重建的完整三维重建过程。
2025-08-14 22:44:37
339
原创 Blender 格式与 Nerfstudio poster 格式的区别
Blender格式的JSON文件主要用于3D场景和相机位姿数据存储。关键内容包括:1)全局参数camera_angle_x表示水平视场角(弧度);2)frames数组包含每帧图像路径(file_path)、旋转角度(rotation)和4x4变换矩阵(transform_matrix);3)内参通过camera_angle_x和图像宽度推算焦距,而非直接存储;4)外参使用变换矩阵表示相机位姿,前3行表示旋转矩阵,第4列表示平移向量。这种结构化的数据格式便于3D渲染软件和Nerf等新型视图合成方法读取和处理。
2025-08-12 14:08:07
366
原创 Blender 数据集格式介绍
Blender数据集是NeRF论文使用的合成数据集,包含8个规范化的3D场景(如椅子、乐高等),每个场景提供360度环绕视图。数据集结构清晰,每个场景包含训练/验证/测试三组图像(共约200张800×800分辨率的PNG图片)及对应的相机参数JSON文件。JSON文件记录了相机视角、位姿矩阵等关键信息。整个数据集约2-3GB,各场景独立存储,具有完全一致的目录结构和文件组织形式,便于神经辐射场等3D重建任务的训练与评估。
2025-08-11 10:21:18
777
原创 在windows安装colmap并在cmd调用
本文介绍了COLMAP软件在Windows系统的安装配置方法:首先从GitHub下载安装包,然后通过系统环境变量设置QT_PLUGIN_PATH变量指向plugins目录,并将COLMAP的bin目录添加到PATH路径。配置完成后需重启命令行窗口,通过echo命令验证环境变量是否生效,最后可直接在CMD中输入colmapgui命令启动程序。这些步骤确保了COLMAP能正确加载Qt插件并正常运行。
2025-08-10 23:04:26
821
原创 如何用 COLMAP 制作 Blender 格式的数据集
本文介绍了如何将COLMAP稀疏重建结果转换为Blender格式数据集,用于NeRF/Nerfstudio训练。主要步骤包括:1)通过COLMAP进行特征提取、匹配和稀疏重建,生成包含相机参数的cameras.txt和images.txt;2)解析这些文件,将四元数和位移转换为相机到世界的4x4变换矩阵,并计算水平视场角;3)按比例(如70%训练、15%验证、15%测试)划分数据集,生成对应的transforms_train.json、transforms_val.json和transforms_test.
2025-08-10 14:36:28
812
原创 nerfstudio数据集格式简介
摘要:Poster数据集是NeRF训练和测试的常用基准数据集,包含约200张室内场景的多视角照片(分辨率约800×800),主要用于验证三维重建和新视角合成能力。数据集采用标准transforms.json格式存储相机参数(内参/外参)和图像路径,与Blender格式类似。该JSON文件包含全局相机参数(分辨率、焦距、畸变系数等)和每帧的位姿矩阵(4×4变换矩阵),支持快速训练评估。在nerfstudio等框架中可直接使用,是NeRF社区广泛采用的标准测试集。
2025-08-09 01:10:44
865
原创 Blender格式的数据集介绍
Blender格式是NeRF等3D重建任务的标准数据集格式,主要由transforms_train.json等JSON文件构成。这些文件包含相机水平视场角(camera_angle_x)和帧列表(frames),其中每帧记录图像路径(file_path)和4x4相机变换矩阵(transform_matrix)。典型目录结构包含JSON文件和images子文件夹,JSON文件使用相对路径指向图像。该格式规范了相机参数和图像信息的存储方式,确保NeRF等模型能正确读取训练数据。
2025-08-09 00:49:08
628
原创 用 COLMAP GUI 在 Windows 下一步步完成 相机位姿估计(SfM) 和 稀疏点云重建的详细步骤:
COLMAPGUI实现SfM和稀疏点云重建的简明流程:1)新建项目并导入图像;2)使用默认参数进行特征提取;3)选择匹配方式完成特征匹配;4)执行稀疏重建生成相机位姿和点云;5)可交互查看并导出结果。关键提示:大规模数据建议使用序列匹配,图像需保证清晰度和足够重叠区域。该流程可为NeRF等任务提供基础数据。
2025-08-09 00:38:50
957
原创 pyqt动态加载ui界面的情况下,弹出路径检查提示对话框
该代码片段展示了一个简单的文件路径检查逻辑,当输入文件路径为空时,会弹出提示框通知用户"请指定图像"。代码使用了QMessageBox对话框组件显示错误信息,提示用户必须选择图像文件才能继续操作。这是一个典型的用户输入验证场景,确保程序执行前满足必要条件。
2025-06-15 12:13:20
217
原创 PIL读取的图像显示到Qlabel,在Qt界面中正确显示PIL图像
这段代码展示了如何将PIL图像在GUI界面中显示。主要功能包括:1)使用Pillow库打开图像文件;2)通过自定义方法将PIL图像转换为QPixmap格式,处理了灰度图和彩色图(包括RGB/RGBA模式)的转换;3)在GUI标签控件中居中显示图像,并保持原始比例进行缩放。代码通过NumPy数组作为中间格式,实现了PIL图像到Qt图像格式的转换,确保图像能在Qt界面中正确显示。
2025-06-15 11:57:28
175
原创 Sigmoid函数范围
Sigmoid函数是一种常用的激活函数,其输出范围在(0,1)之间。当输入为0时,Sigmoid函数的输出为0.5。随着输入值趋近于正无穷,输出值逐渐接近1;而随着输入值趋近于负无穷,输出值逐渐接近0。对于接近0的输入,Sigmoid函数的输出也会接近0.5。这种特性使得Sigmoid函数在神经网络中常用于二分类问题,能够将输入映射到概率范围内。
2025-05-09 13:11:37
337
原创 双目测量中的将视差图重投影成三维坐标图
points_3d.shape = (4, 3, 3) # 高 4 行,宽 3 列,每个像素有 3 个坐标值。左右两张图片 → 匹配 → 得到视差图。,每个像素位置上存储该像素对应的。空间坐标(以相机为坐标原点)。成三维坐标图 → 得到。
2025-05-05 21:24:06
418
原创 mmsegmentation中img_scale的作用
mmsegmentation是基于 PyTorch 的一个开源语义分割工具箱,用于处理图像分割任务。是一个重要的配置参数,它用于指定输入图像的缩放比例。
2025-01-05 16:40:52
450
原创 KeyError: “EncoderDecoder: ‘afformer_base is not in the models registry‘“
【代码】KeyError: “EncoderDecoder: ‘afformer_base is not in the models registry‘“
2024-09-08 20:47:10
641
原创 详解cv2.inpaint()
flags: 修复算法的标志。有两个可选值:cv2.INPAINT_TELEA和cv2.INPAINT_NS。默认为cv2.INPAINT_TELEA。inpaintRadius: 修复半径,即掩膜的像素周围需要参考的区域半径。inpaintMask: 修复图像的掩膜,即需要被修复的像素区域。src: 要修复的原始图像。
2024-07-20 14:38:38
768
原创 通过终端使用mmsegmentation中tools出现unrecognized arguments
出现unrecognized arguments 使用 pip install pytest-html。pip list 检查是否安装pytest-html。
2024-07-17 10:29:26
351
b站-OpenCV-贾志刚-视频截图.rar
2021-08-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅