- 博客(289)
- 收藏
- 关注
原创 qwen3-vl 大模型lora微调官方版
本文介绍了Qwen3-VL多模态大模型的微调流程。该模型采用DeepStack架构,融合多级ViT特征增强视觉语言对齐,支持图像/视频输入转换为视觉token后与文本token交错处理。教程详细说明了模型结构(包含interleaved-MRoPE、DeepStack和时间戳对齐模块)、环境配置(Python 3.12环境搭建及相关依赖安装)以及数据集准备方法(需包含图片和JSON格式的QA对)。作者通过官方demo数据演示了LoRA微调过程,包括模型下载、数据集注册和训练脚本配置,特别指出在处理目标检测任
2026-03-16 15:15:57
888
原创 notion+chatgpt的公式排版
摘要:一款AI浏览器插件能自动识别Notion中的伪LaTeX公式文本,并将其转换为可渲染的数学公式。该插件采用AI识别+本地补漏策略,克服了传统正则表达式难以处理复杂公式的问题。用户只需加载插件并输入API密钥,即可一键转换文档中的公式文本。项目结构清晰,适合需要频繁处理技术文档、研究笔记的用户和团队,能有效提升公式转换的准确性和效率。(150字)
2026-03-05 23:52:53
442
原创 note ai驱动本地笔记
NoteAI是一款本地笔记管理工具,灵感来自NotebookLM和OpenNote项目。该项目已在GitHub开源,提供本地化笔记管理解决方案,适合对笔记工具感兴趣的用户试用。开发者鼓励用户star支持项目发展。界面截图展示了简洁的操作面板和功能布局,体现了工具的实用性和易用性。
2026-02-06 22:02:36
83
原创 视觉相关的数据集网站
本文汇总了计算机视觉领域的核心数据集资源,涵盖四大类平台:1)综合型数据集平台(Kaggle、Papers with Code等);2)经典视觉数据集(ImageNet、COCO等);3)国内中文平台(阿里云天池、极市平台等);4)专项任务数据集(目标检测、人脸识别、场景理解等)。重点介绍了各平台的数据规模、特点及适用场景,为研究者提供权威的数据获取渠道参考。
2026-01-30 02:19:05
666
原创 开源项目 Pull Request 提交标准流程
本文详细介绍了向开源项目提交Pull Request(PR)的完整流程。主要内容包括:PR的概念说明(区分PR/MR/CR),从Fork项目到最终Merge的9个标准步骤(Fork→Clone→Branch→Code→Commit→Push→PR→Review→Merge),以及分支命名规范、Commit Message规范、PR描述模板等重要细节。文章还提供了代码同步、处理Review反馈等实用技巧,并强调阅读CONTRIBUTING.md、保持PR小而专注等注意事项。该指南涵盖了开源贡献的核心流程和最佳
2026-01-30 02:03:43
578
原创 cosmos系列模型的推理使用——cosmos transfer2.5
本文介绍了Cosmos Transfer 2.5的安装与使用指南。主要内容包括:1) 通过git lfs下载源码并配置Python 3.10环境;2) 提供了机器人、汽车等多种场景的推理示例,包括深度、边缘、分割、可视化等控制模式;3) 展示了单卡和多卡(8卡)并行推理方法;4) 详细说明了多视角视频生成功能,包括同步视角和自回归长视频生成;5) 介绍了参数查询方法。新版重点提升了多视角视频生成能力,并附带了不同控制模式的生成效果对比图。
2026-01-26 22:36:40
539
原创 nvidia世界模型cosmos transfer生成
英伟达推出Cosmos世界基础模型平台,旨在推动物理AI普及化。该平台采用预训练+后训练范式,通过大规模视频数据训练通用世界模型,再针对机器人、自动驾驶等具体任务微调。关键技术包括:视频数据整理pipeline从2000万小时视频中提取高质量片段;基于Transformer的扩散模型和自回归模型两种建模方法;创新的因果视频tokenizer实现高效压缩。平台还包含安全防护系统,并开放模型、tokenizer及训练脚本,帮助开发者构建专业物理AI应用。实验表明,该方案在视觉重建质量和推理效率上优于现有方法。
2026-01-26 22:31:44
1272
原创 交换空间扩容与删除、hugginface更换默认目录、ffmpeg视频处理、清理空间
本文总结了几个实用的Linux系统管理技巧:1) 通过dd命令创建15GB的swap临时空间并启用;2) 将huggingface缓存目录迁移到指定位置并配置环境变量;3) 使用ffmpeg快速截取视频片段;4) 清理pip和Chrome浏览器缓存以释放空间。这些方法涉及系统资源管理、开发环境配置和多媒体处理,适用于需要临时扩展内存、优化存储空间或处理视频的开发场景。所有操作均提供验证步骤,确保执行效果可见。
2026-01-26 22:17:24
289
原创 ssh远程连接之后的scp命令工具来操作文件
本文介绍了SCP工具的基本使用方法,分为本地到远程和远程到本地两种操作。本地到远程传输时,使用scp 本地文件 用户名@IP:远程路径格式,传输文件夹需加-r参数。远程到本地传输则使用scp 用户名@IP:远程文件 本地路径格式,同样文件夹需加-r。文中提供了具体示例,包括传输单个文件(app.py)和文件夹(myfolder)的操作方法。
2026-01-23 22:43:26
230
原创 a800上gazebo无法使用gpu的问题修复
摘要:本文分析了服务器环境下Gazebo/OpenGL使用CPU渲染(llvmpipe)而非NVIDIA GPU的问题。通过检查glxinfo和xrandr命令,发现Xorg默认使用modesetting驱动而非NVIDIA驱动,导致OpenGL走Mesa软件渲染。解决方案是执行nvidia-xconfig生成xorg.conf配置文件,强制Xorg使用NVIDIA驱动,使OpenGL真正利用GPU加速。文章还解释了Linux图形栈的三层结构(应用层、libGL层和Xorg层)以及服务器发行版默认不使用NV
2026-01-23 22:42:52
934
原创 navsim训练报错问题(常见的代理错误)
摘要:在复现NavSim训练时,运行run_transfuser_training.sh脚本出现代理配置错误,提示"Unknown scheme for proxy URL"。该问题是由于系统环境变量中设置了SOCKS代理(socks://127.0.0.1:7890/)导致的。解决方法是通过unset命令清除所有代理相关的环境变量(包括http_proxy、https_proxy等),清理后即可正常重新运行训练脚本。该问题展示了环境变量配置对深度学习框架运行的影响。
2026-01-20 20:40:11
236
原创 LQR与MPC.入门知识与实验
本文摘要: LQR是一种基于最小代价消除误差的最优控制方法,适用于线性系统$\dot{x}=Ax+Bu$,通过优化代价函数$J=\int(x^TQx+u^TRu)dt$求解控制律$u=-Kx$。其核心流程包括线性化、求解黎卡提方程和反馈控制。LQR计算高效且稳定性强,但无法处理控制约束且缺乏前瞻性。通过仿真实验分析不同$R$值的影响:$R$越小控制越激进(误差收敛快但易震荡),$R$越大控制越平滑(能耗低但响应慢)。实验量化了横向误差、航向误差等指标,验证了权重参数对系统性能的明确调节作用。
2026-01-20 19:57:01
597
原创 关于命令的进度(条)、pv+tar实时解压缩测速
本文介绍了三种常用的进度显示工具:tqdm、rich和pv。tqdm是Python中最常用的进度条库,支持单层和嵌套进度条显示,通过包装迭代器或手动更新实现进度跟踪。rich库提供了更美观的嵌套进度条效果,通过Progress对象自动管理进度显示。pv则是Linux命令行工具,主要用于监控管道数据流进度,如文件解压、传输等操作。文章通过代码示例展示了各工具的基本用法,并附有运行效果截图,帮助开发者选择适合不同场景的进度监控方案。
2026-01-20 09:02:10
379
原创 LLaMA-Factory 入门(二): 深入技术解析
大语言模型微调指南摘要 本文系统介绍了大语言模型(LLM)微调的核心内容:1) 基础概念:对比预训练与微调,阐述SFT、RLHF等微调阶段;2) 核心技术:详述全量微调与PEFT方法(LoRA、QLoRA等参数高效微调技术);3) 数据工程:说明Alpaca和ShareGPT两种数据格式及清洗要点;4) 硬件优化:分析显存占用组成,推荐混合精度训练、量化等优化方案;5) 训练参数:提供学习率、Epoch等关键超参数设置建议。全文聚焦如何通过高效微调使大模型适配特定任务,平衡效果与资源消耗。
2025-12-30 10:33:56
1094
原创 LLaMA-Factory 入门(一):Ubuntu20 下大模型微调与部署
LLaMA-Factory 是一个面向大语言模型(LLM)的高效训练与微调框架,专为简化 LLaMA 系列以及各类开源大模型的训练流程而设计。它以“开箱即用、灵活高效”为核心理念,提供从数据准备、参数高效微调(PEFT)、训练配置管理到模型部署的一站式解决方案。
2025-12-29 17:51:34
904
原创 局部规划器的两种尝试
本文介绍了两种ROS2 Galactic环境下的局部规划方案:基于Frenet坐标系的规划方法和基于时序栅格的局部规划。Frenet规划器采用五次多项式横向规划和四次多项式纵向规划,支持动态避障和轨迹优化,适用于结构化道路场景。时序栅格方案则利用STVL(时空体素层)代价地图处理感知数据,适合实车环境。两种方案均提供完整的ROS2实现,包括启动文件、参数配置和可视化工具。Frenet规划器通过订阅参考轨迹、速度信息和代价地图,发布最优路径;时序栅格方案则整合全局/局部代价地图进行导航决策。文中还提供了行为树
2025-12-19 15:44:50
719
原创 linux实用工具介绍
本文推荐了8款高效的终端工具:tmux用于后台程序管理;btop/glances/iotop用于系统监控;ncdu分析文件夹大小;dstat查看读写数据;nload/iftop监控网络流量;fd-find快速搜索文件。这些工具安装简单(多数通过apt/pip),功能强大,能显著提升终端工作效率,适合开发者和系统管理员使用。
2025-12-18 15:56:10
385
原创 ego_planner算法的仿真环境(主要是ros)-算法的解耦实现.
本文介绍了ego_planner_standalone项目,该项目将ROS EGO-Planner解耦为独立的C++规划算法模块和ROS桥接层。项目采用共享内存实现两者通信,包含完整的算法流程(前端路径搜索、B样条优化、时间重分配等),并提供了GUI界面简化启动流程。系统架构清晰划分为数据输入(定位、点云、航点)、核心算法处理和数据输出(轨迹、状态)三个部分,支持通过四个步骤启动完整系统。项目实现了算法与ROS的分离,提高了代码可移植性和模块化程度。
2025-12-18 15:44:29
1392
原创 slam一篇文章就够了——基于lio-sam的测试(3)
本文主要介绍了LIO-SAM系统的启动配置及参数设置。系统通过run.launch文件启动,依次加载参数配置文件、LOAM节点、TF变换、GPS融合节点和可视化界面。重点分析了params.yaml中的关键参数配置,包括传感器话题设置、坐标系定义、GPS参数、点云处理参数、IMU噪声参数、外参标定以及回环检测等。其中详细说明了激光雷达与IMU之间的外参变换矩阵配置,并提供了不同传感器类型的参数调整建议。这些配置参数直接影响系统的定位建图性能,需要根据实际传感器型号和使用场景进行相应调整。
2025-12-18 13:56:36
1191
原创 基础命令学习之ps 与 pkill 与 nohup 与 2>&1 &
本文介绍了Linux下进程管理和日志记录的关键命令。主要内容包括:1) 使用ps aux | grep查找进程,pkill精准终止程序;2) 通过nohup和&实现终端关闭后程序持续运行;3) 重定向操作符>和>>的区别,以及2>&1合并错误输出;4) 使用-u参数解决Python输出缓冲问题;5) 综合命令示例实现带时间戳的后台运行和日志记录;6) 使用tail -f实时查看日志文件。这些技巧对后台程序管理和日志监控非常实用。
2025-12-16 17:18:08
250
原创 linux中can,pcap数据录制与udp缓存空间配置
本文介绍了激光雷达数据采集与处理的实用方法:1)使用tcpdump录制点云数据,candump录制CAN报文;2)创建虚拟CAN接口并发送测试数据;3)优化Linux UDP缓冲区解决通信频率问题,通过修改sysctl配置提升雷达数据传输性能。文章提供了详细的命令行操作指南,包括数据录制、虚拟CAN配置和网络参数调优等实用技术。
2025-12-16 16:42:13
398
原创 git lfs更新的问题
摘要:在运行Habitat-Sim时出现Git LFS命令执行错误(exit status 127),原因是系统通过apt安装的Git LFS版本过低。解决方法是通过wget下载最新版(v3.4.0)的Git LFS,解压后运行install.sh脚本完成安装,最后通过git lfs --version验证安装成功。该方法有效解决了版本兼容性问题。
2025-12-16 16:27:17
126
原创 slam一篇文章就够了——基于lio-sam的测试(2)
本文介绍了使用evo工具进行KITTI格式轨迹对比的方法,以及通过ICP算法对齐两条轨迹的实现。主要内容包括:1) 使用evo_traj命令进行基本轨迹对比,但无法自动对齐;2) 提供Python脚本实现ICP对齐,包含读取KITTI格式数据、最近邻搜索、SVD变换计算等步骤;3) 展示对齐后的轨迹对比效果图和误差统计结果。该方法适用于没有时间戳的KITTI格式轨迹数据,通过ICP计算变换矩阵实现轨迹对齐,并输出RMSE和最大误差等评估指标。
2025-12-07 12:23:56
993
原创 slam一篇文章就够了——基于lio-sam的测试(1)
本文介绍了在Ubuntu 20.04和ROS Noetic环境下编译运行LIO-SAM时常见问题的解决方案。主要内容包括:GTSAM版本选择(推荐4.2-ros或4.0.0-alpha2)、Eigen3路径配置、OpenCV头文件修改(将opencv/cv.h替换为opencv2/imgproc.hpp)、将C++标准改为C++14解决PCL兼容性问题。运行时问题方面,提供了libmetis.so库路径修复方法、必要的ROS定位功能包安装建议,以及IMU-LiDAR外参标定注意事项。最后给出了数据集测试流程
2025-12-07 12:22:38
381
原创 深入调研分析——是先有鸡还是先有蛋?
摘要:演化生物学研究表明,先有蛋后有鸡。基因突变发生在受精卵阶段,第一只鸡是从"原鸡"产下的蛋中孵化的。羊膜卵的出现比鸟类早数亿年,支持"蛋先存在"的观点。虽然OC-17蛋白争议提出"先有鸡"的论点,但进化是渐进过程。定义上,若将"鸡蛋"定义为"孵出鸡的蛋",则蛋先于鸡存在;若定义为"鸡产的蛋",则鸡先存在。科学证据表明,物种演化通过蛋中的基因突变实现,因此先有蛋后有鸡。
2025-11-30 13:01:16
855
原创 Python 初学者 / 中级开发者常踩坑的 10 个坑 —— 要用好几年才能彻底搞清楚的
本文分享了10个容易被Python开发者忽视的基础概念,包括可变与不可变对象、参数传递机制、is与==的区别、迭代器与生成器、列表推导式与循环的选择、默认参数陷阱、深浅拷贝问题、闭包延迟绑定、多重继承MRO以及鸭子类型编程风格。这些看似基础实则关键的概念,往往是代码bug和性能问题的根源。作者建议开发者深入理解这些核心机制,而非盲目追求新特性,才能真正写出高效可靠的Python代码。掌握这些概念后,许多代码中的怪异行为将豁然开朗。
2025-11-28 22:52:08
1045
原创 2025两院院士落选感言
《院士落选记:一位"量子沉默学"研究者的自嘲》 摘要:本文以幽默笔调记录了一位科研工作者落选院士的心路历程。作者自述在量子物理领域取得"突破性成果",如"用薛定谔的猫调控超导电性",却在院士评选中铩羽而归。文章通过"暗物质热饭""引力波省电费"等荒诞比喻,以学术黑话解构现实落差,展现科研人面对失败时的自嘲智慧。最终在"阳光相对论"的调侃中,完成对学术评价体系的温和反讽。
2025-11-28 22:35:43
525
原创 斯坦福可能“终结”Prompt Engineering?——几个字让 AI 写作重获创造力
斯坦福大学研究揭示:传统Prompt工程技巧(如角色扮演、思维链等)存在局限性,导致AI输出缺乏多样性。团队提出的"Verbalized Sampling"方法通过让模型展示多个候选答案及其概率分布,显著提升创意任务的多样性(提高1.6-2.1倍)。该方法适用于创意写作、头脑风暴等场景,但需注意在严谨任务中可能产生不准确内容。研究证明,释放模型的内部概率分布比复杂提示词更能激发创造力。
2025-11-27 22:33:24
953
原创 共享内存与ros通信--同时也聊聊slam-gps中的轨迹融合
本文探讨了在ROS2环境中运行ROS1算法的通信方案。针对大型传感器数据(如相机、雷达)无法直接通过话题传递的问题,提出了两种解决方案: ros1_bridge功能包:实现ROS1和ROS2之间的双向通信,但仅限于标准消息类型。其特点是"懒惰"机制,仅在ROS2侧有订阅请求时才转发数据。 共享内存方案:通过内存共享实现ROS1算法使用ROS2数据。具体实现分为: ROS2节点将激光雷达、IMU、GPS和TF数据写入共享内存 ROS1节点读取共享内存并发布相应话题 最终接入ROS1的LIO
2025-11-27 22:06:54
984
原创 稀疏奖励与强化学习以及约束处理
本文探讨强化学习中奖励设计的挑战与解决方案。针对稀疏奖励问题,提出四种主要方法:1) 逆强化学习(IRL)通过专家示范学习隐式奖励函数;2) 目标经验回放(HER)利用失败轨迹重标记目标;3) 课程式学习逐步提升任务难度;4) 奖励塑形与约束优化确保安全性和稳定性。文章通过流程图和案例说明各类技术的实现原理,强调奖励设计对强化学习性能的关键影响,并提供实践中的权衡建议与配置技巧。
2025-11-25 19:26:15
833
原创 gazebo栅格地图生成-直接生成而非二次建图
本文介绍了一种在Gazebo中快速生成标准化栅格地图的方法,通过pgm_map_creator工具替代传统SLAM建图流程。该工具支持从Gazebo world文件一键生成2D栅格地图、PNG预览、ROS元数据、点云及Octomap等多种格式。文章详细说明了项目架构、参数配置、工作流程及典型应用场景,并提供了编译和使用的具体步骤。该方法具有多格式同步输出、参数可控、易于集成等特点,适用于室内机器人导航、研究实验和教学演示等场景。使用时可选择仅生成2D地图以提高效率。
2025-11-25 18:46:15
1375
1
原创 RVC声音转换的使用
本文详细介绍了在Windows系统下使用RVC(Retrieval-based Voice Conversion)工具进行声音克隆与训练的完整配置流程。主要包括:1) 创建Python 3.8的conda环境;2) 安装CUDA 11.8和PyTorch GPU版本;3) 克隆RVC项目源码并解决依赖冲突;4) 下载必要的预训练模型和工具文件;5) 配置启动脚本。文章提供了详细的命令行操作步骤和配图说明,特别针对常见的依赖冲突问题给出了解决方案(降低pip版本),适合想要实现语音转换功能的开发者参考。
2025-11-23 14:26:08
259
原创 ubuntu系统反复停留在登录界面无法进入
摘要:解决Ubuntu登录界面循环问题,可通过tty创建新用户。步骤如下:1)执行sudo useradd -m -s /bin/bash newuser新建用户;2)用sudo passwd newuser设置密码;3)可选sudo usermod -aG sudo newuser授予管理员权限;4)通过id newuser验证用户创建成功。该方法能绕过原账户登录故障,新建账户带sudo权限可避免后续操作受限。(149字)
2025-11-07 10:45:59
223
原创 使用mujoco加载模型和控制、以及训练(二)
本文介绍了MuJoCo物理引擎的安装配置及常用机械臂模型的使用方法。主要内容包括:1) 下载最新版MuJoCo并配置环境变量;2) 测试安装效果并运行示例模型;3) 获取menagerie模型库中的常见机械臂模型;4) 展示多个机械臂模型的仿真效果图;5) 介绍Python环境下MuJoCo的基本使用方法,包括模型加载、仿真控制和可视化。特别演示了如何通过Python程序获取机械臂末端执行器的位置信息,并提供了完整的仿真控制代码框架。
2025-11-02 00:28:42
1253
原创 使用mujoco加载模型和控制、以及训练(一)
本文介绍了在Windows系统下搭建MuJoCo强化学习训练环境的过程。首先下载并安装最新版MuJoCo,配置相关环境变量。接着安装CUDA 11.8和对应版本的cuDNN,完成GPU加速配置。然后通过conda创建虚拟环境,安装PyTorch GPU版本和stable_baselines3等必要依赖。最后启动训练脚本进行模型训练,训练完成后可进行模型测试。整个过程涵盖了从环境配置到模型训练的主要步骤,为基于MuJoCo的强化学习项目提供了完整的Windows环境搭建指导。
2025-11-01 17:20:15
955
原创 moveit使用最终章——tiago moveit环境配置过程(五)
本文介绍了在ROS Noetic环境下搭建Tiago机器人仿真环境的具体步骤。首先创建并配置工作空间,下载官方功能包源码。随后通过apt安装必要的依赖包,包括导航规划、传感器仿真、MoveIt运动规划等组件。接着使用rosdep解决剩余依赖关系,并跳过部分非必要依赖项。最后通过catkin build命令编译整个项目,编译完成后运行导航和任务测试launch文件验证环境配置正确性。整个过程涵盖了从源码获取、依赖安装到系统编译的完整流程,为Tiago机器人的仿真开发提供了基础环境支持。
2025-10-31 19:58:59
361
原创 moveit使用和机器人模型与状态--正向运动学和逆向运动学分析(四)
本文介绍了机器人模型中RobotModel和RobotState类的使用。RobotModel包含机器人关节与链接的关系信息,RobotState存储机器人的实时状态数据。通过MoveIt的C++ API,可以访问机器人的运动学信息,包括末端执行器的雅可比矩阵计算和笛卡尔轨迹规划。文中展示了如何加载Panda机器人模型、获取关节值、检测和处理关节限制,以及进行正向运动学计算。代码示例演示了从URDF/SRDF加载模型、设置关节位置、验证状态有效性,并计算特定末端执行器位置的变换矩阵。运行测试时输出包含模型框
2025-10-30 15:38:03
742
原创 moveit使用与命令行脚本(三)
摘要:本文介绍了如何使用moveit_commander的Python包实现机器人运动规划。通过命令行界面可执行控制命令,包括设置关节值、规划路径和执行动作。具体操作包括启动demo环境、记录当前状态、修改目标关节值(如goal[0]=0.2)、使用go或plan+execute命令控制运动,并支持在RViz中可视化运动计划。该工具提供类似Matlab的语法操作,可通过help查看支持命令,quit退出界面。
2025-10-30 14:48:39
244
osqp 0.6.3 ubuntu20的cmake版本使用
2025-04-16
Practical Search Techniques in Path Planning for Auto D.pdf
2023-07-31
windows下使用issacsim使用问题
2025-10-30
google/protobuf/port_def.inc: 没有那个文件或目录
2023-06-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅