- 博客(30)
- 收藏
- 关注
原创 #折腾WSL避坑记:Ubuntu 22.04安装+D盘迁移全攻略
最近想在Windows上装个WSL 2 Ubuntu 22.04环境,用来跑后续的工具,本以为几分钟就能搞定,结果因为没先更WSL踩了一堆坑。这篇就实打实分享我的经历,重点说清楚“更新WSL”有多重要,还有最终成功安装+迁移到D盘的完整步骤,新手照着做就能少走弯路。
2026-01-24 14:00:44
1202
原创 多无人机任务自定义(基于ZJU-FAST-Lab / EGO-Planner-v2)
只需修改两个文件→ 控制无人机数量和初始位置→ 控制每架无人机的目标位置无需改动任何其他代码,即可实现完全自定义的多机任务。
2025-12-15 13:34:05
435
原创 【从0到1】在AutoDL容器中搭建ROS环境与配置功能包
基础准备:AutoDL容器创建→系统源更新;ROS安装:添加源→安装核心包→初始化rosdep→配置环境变量;工作空间:创建目录→初始化编译→配置环境变量;功能包配置:下载→编译→验证识别;功能验证:启动节点→测试通信。掌握这个流程后,你不仅能搭建ROS基础环境,还能灵活配置任意ROS功能包(如EGO-Planner、MoveBase等)。后续可尝试在工作空间中添加更多功能包,逐步构建完整的机器人开发项目。
2025-11-03 12:05:40
1197
原创 【保姆级教程】在AutoDL容器中部署EGO-Planner,实现无人机动态避障规划
用“绝对路径”启动仿真文件,避免功能包名识别错误;按确认的消息结构发送目标点,避免格式错误;启动前清理旧ROS进程,避免通信冲突。按照本文步骤操作,即使是ROS新手,也能在1小时内打通EGO-Planner的动态避障功能。后续可尝试修改目标点坐标、调整仿真参数(如障碍物数量),深入探索EGO-Planner的特性。操作目标命令编译工作空间加载环境变量清理ROS进程启动仿真发送目标点(x=5,y=2,z=1.5)启动远程桌面启动Rviz要不要我帮你整理一份。
2025-11-03 12:02:26
1374
原创 解决 OpenCompass 评估中的 PyTorch 与 Transformers 版本冲突问题
✅ 快速搭建 OpenCompass 评估环境✅ 解决 PyTorch 与 Transformers 版本冲突✅ 成功运行大语言模型评估任务✅ 掌握环境问题排查方法当遇到错误时,降级 Transformers 到 4.41.0 版本是最直接的解决方案。这种版本冲突问题在 AI 工具链中很常见,掌握环境配置和问题排查技能对于顺利进行模型评估至关重要。
2025-11-03 12:01:37
1134
原创 解决 OpenCompass 评估中的 PyTorch 与 Transformers 版本冲突问题
✅ 快速搭建 OpenCompass 评估环境✅ 解决 PyTorch 与 Transformers 版本冲突✅ 成功运行大语言模型评估任务✅ 掌握环境问题排查方法当遇到错误时,降级 Transformers 到 4.41.0 版本是最直接的解决方案。这种版本冲突问题在 AI 工具链中很常见,掌握环境配置和问题排查技能对于顺利进行模型评估至关重要。
2025-10-12 01:42:17
590
原创 使用Hugging Face CLI轻松上传模型至huggingface:一条命令搞定模型部署
Hugging Face CLI工具极大地简化了模型上传流程,让机器学习模型的分享和部署变得前所未有的简单。无论你是初学者还是经验丰富的研究者,这个工具都能为你节省宝贵的时间,让你更专注于模型开发本身。尝试使用hf upload命令上传你的下一个模型,体验高效便捷的模型部署流程吧!注意:本文基于Hugging Face Hub的最新CLI工具编写,具体命令可能会随着版本更新而变化,请参考官方文档获取最新信息。
2025-10-05 16:55:08
1279
原创 ViTables 安装与 HDF5 数据可视化全指南
ViTables 是 HDF5 数据可视化的轻量利器,尤其适合强化学习从业者快速查看数据集结构。本文从安装、问题排查到实操演示,覆盖了从 0 到 1 的全流程——核心是解决“安装失败”和“启动无反应”问题,重点掌握“树形结构查看”和“数据预览”功能。若遇到兼容性问题,也可灵活选用 HDFView 或 Python 代码作为替代方案,确保高效处理 HDF5 数据。
2025-09-19 17:19:40
921
原创 # 从 Gymnasium 到 Minari:新一代机器人强化学习工具链全指南
Gymnasium 及其机器人环境扩展的安装配置如何运行 PointMaze 和 Fetch 等经典机器人任务Minari 离线数据集的下载与使用方法这套工具链解决了旧版 Gym 和 D4RL 的诸多问题,提供了更稳定、更易用的开发体验。无论是学术研究还是实际应用,都能显著提高强化学习实验的效率。下一步,你可以尝试将这些环境与具体的强化学习算法结合,或使用 Minari 数据集进行离线强化学习研究,探索更复杂的机器人控制任务。
2025-09-18 23:15:40
1507
原创 【RL环境搭建】MuJoCo + Gymnasium-Robotics + Minari
MuJoCo是“地基”:提供高精度物理模拟,确保机器人运动符合真实世界规律;是“脚手架”:封装现成环境,让开发者无需关注物理模型细节,快速聚焦RL算法;Minari是“数据仓库”:解决离线RL的数据管理问题,让历史交互数据可复用、可迁移。通过本文的安装指南与验证代码,你可以避开90%的版本兼容与依赖问题,快速搭建稳定的机器人离线RL开发环境。后续可尝试用Minari加载官方数据集(如),或自定义数据集训练算法,逐步深入离线机器人RL领域。
2025-09-11 12:37:41
1354
原创 d4rl 源码安装时跳过 pybullet 依赖,无需安装 VS C++ Build Tools
本文介绍了一种“按需安装”的d4rl源码安装方案,核心是通过修改setup.py注释掉pybullet依赖,避免安装冗余的VS C++ Build Tools。克隆d4rl源码 → 激活虚拟环境修改setup.py,注释"pybullet"依赖执行完成安装根据实验需求,决定是否后续补装pybullet这种思路也适用于其他Python包的安装:遇到不必要的依赖报错时,先查看setup.py或,判断是否可以跳过该依赖,再动手解决,避免“一刀切”式的冗余安装。
2025-09-11 10:52:05
1174
原创 AutoDL 数据盘清理指南:彻底删除 .Trash-0 内文件释放空间
通过本文的介绍,你应该已经掌握了如何清理 AutoDL 实例中.Trash-0内的文件。记住,定期清理和良好的文件管理习惯是避免磁盘空间问题的关键。如果你在操作过程中遇到任何问题,欢迎在评论区留言讨论。
2025-07-26 17:17:44
3174
原创 PyTorch与CUDA:初学者必懂的“加速协作”指南
PyTorch需要CUDA才能调用GPU:CUDA是“桥梁”,没有它,PyTorch只能用CPU;版本匹配是关键:驱动支持版本 ≥ 系统CUDA版本 ≥ PyTorch编译版本;安装后一定要验证:用确认GPU是否能用,别等训练时才发现问题。如果在实际操作中遇到诸如PyTorch安装后无法调用GPU等具体问题,可以随时告诉我你的情况,我会帮你进一步分析解决。
2025-07-25 02:04:15
3414
原创 万字详解大模型推理核心函数:从文本处理到模型推理(入门级超详细版)
*kwargsLLM(→ 得到分词器→ 得到基础模型→ 给基础模型加载LoRA参数→ 处理对话格式LLM(vLLM)→ 高效推理引擎这些函数构成了大模型开发的基础工具链,掌握它们的用法后,你就能搭建从模型加载、微调适配到高效推理的完整流程。建议结合实际代码多做练习,逐步熟悉各个参数的实际效果。
2025-07-25 00:49:22
1395
原创 大模型微调流程解读:基于Qwen2.5-3B-Instruct的LoRA高效微调全流程解析
大模型微调实战:基于Qwen2.5-3B-Instruct的LoRA高效微调全流程解析前言:为什么选择LoRA微调?在大型语言模型(LLM)时代,微调技术是让通用模型适应特定任务的关键。传统全参数微调需要消耗大量计算资源,而LoRA(Low-Rank Adaptation)技术通过仅训练少量参数就能达到接近全参数微调的效果。本文将详细介绍如何使用LoRA对Qwen2.5-3B-Instruct模型进行高效微调。
2025-07-18 22:50:17
1629
原创 基于Qwen2.5-3B-Instruct的LoRA微调与推理实战指南
前言大语言模型(LLM)的微调是当前AI领域的热门话题,而参数高效微调方法(如LoRA)因其低成本和高效率备受关注。本文将手把手教你如何使用Qwen2.5-3B-Instruct模型进行LoRA微调,并构建完整的推理流程。一、环境准备1.1 硬件要求• GPU: 至少16GB显存(如NVIDIA RTX 3090/A10)• 内存: 32GB以上• 存储: 50GB可用空间。
2025-07-18 22:36:51
2442
原创 大语言模型代码实现对话交互全流程解析
分词器和模型是基础工具,必须匹配;对话构建和模板化是“翻译”过程,确保模型理解输入;生成和解码是“输出”过程,控制回复的质量和格式。理解这套流程后,你可以更灵活地调试模型行为(如通过调整控制回复风格,或通过系统提示约束输出格式),让LLM更好地为特定场景服务。
2025-07-14 21:25:39
1358
原创 stable_baselines3测试PPO算法运行Pong环境(含完整代码与解释)
环境— PyTorch 信息 —PyTorch 版本: 2.7.1+cu118GPU 可用: TrueCUDA 版本: 11.8cuDNN 版本: 90100GPU 设备: NVIDIA GeForce RTX 4060 Laptop GPU可用 GPU 数量: 1— Gymnasium 信息 —Gymnasium 版本: 1.1.1— Stable Baselines3 信息 —Stable Baselines3 版本: 2.6.0— 其他依赖包信息 —numpy 版本: 1.24.3
2025-07-04 01:19:57
1488
原创 hugging face下载数据集报错Loading a dataset cached in a LocalFileSystem is not supported解决方案
最近在微调qwen-2.5-3B模型时遇到一些问题,后续会陆续总结到这篇文章中。
2025-06-26 22:30:58
544
原创 群体智能:批判性审视
群体智能如同一柄双刃利剑,其模仿自然之美的背后,潜藏着理论根基的脆弱、工程实践的桎梏与伦理深渊的幽暗。对其不加批判的拥抱,无异于在数字迷雾中闭目前行。群体智能的未来,当在审慎与责任中书写。
2025-06-17 00:35:10
874
3
原创 深度解析群智能算法:从生物启发的优化范式到复杂问题求解引擎
群智能算法通过模拟生物群体行为(如蚁群觅食、鸟群迁徙),构建了一种独特的分布式优化范式。自20世纪90年代蚁群优化(ACO)和粒子群优化(PSO)诞生以来,这类算法已在等领域展现出独特价值。本文从三个维度,系统解析群智能算法的核心机制与发展逻辑。:群智能并非对生物行为的精确复制,而是提取等核心原则构建的随机优化框架。
2025-06-17 00:26:34
1183
原创 史上最详细Carla增加Town6,Town7,Town10地图教程以及简单代码测试
简单记录一下再Carla中增加Town6,Town7,Town10环境以及代码测试笔记本配置1、内存:+16 GB RAM memory2、显存:+8 GB Video memory3、处理器: Intel® Core™ i9-14900HX 2.20 GHz4、操作系统:10Windows,64 位操作系统, 基于 x64 的处理器5、Carla版本:0.9.146、python版本:3.7.1。
2025-06-16 18:11:55
13846
原创 无折扣形式策略梯度:深度解析与关键形式
用奖励/价值引导策略更新,同时尽可能降方差、提效率。而优势函数,正是这一路进化的“集大成者”——平衡了方差、解释性和实用性,成为深度强化学习(如 PPO、A2C 等算法)的基石。如果你在做强化学习项目,不妨从优势函数入手,搭配 Actor-Critic 框架,感受策略梯度的强大优化能力。当然,也别忽略其他形式的价值——比如 TD 误差适合快速迭代场景,基础形式帮你理解梯度本质。掌握这些,策略梯度的优化逻辑就不再晦涩,接下来就是放手实践,让智能体在环境中“一路狂飙”拿高分啦~
2025-06-10 19:04:51
821
原创 因果推断中 P(Y|X) 和 P( Y|do(x))的区别
以及是否排除了混淆变量的影响。的观测分布,而P(Y|do(X)) 对应。在因果图中,( P(Y|X) ) 对应。它们的本质区别在于是否涉及。是两个核心概念,用于区分。
2025-06-10 11:46:12
897
原创 因果推断后门准则具体例子
若直接拟合模型 (Y = \beta_0 + \beta_1 X + \epsilon),系数(\beta_1) 可能仅反映相关性,而非因果性。假设原始数据中,服药组康复率为40%,未服药组为30%,表面上药物有效。通过后门调整,分层分析明确分离了年龄的影响,确保组内比较的公平性(即同年龄组内服药与未服药患者的差异仅由药物引起)。其中,(P(Y|do(X))) 表示干预X(强制服药)时Y的分布,通过对Z分层求和消除混杂。:研究某新型药物(X)对心脏病患者康复(Y)的因果效应,需排除年龄(Z)的混杂影响。
2025-06-08 01:51:17
1313
1
原创 强化学习中的数据Shuffling(洗牌)
算法类型 是否需要洗牌 关键原因DQN、SAC ✅ 需要 依赖经验回放,需打破样本间时序相关性PPO、A2C ❌ 不需要 优势函数计算依赖时序,在线策略无需历史数据基于 LSTM 的序列模型 ❌ 不需要 网络结构显式建模时序依赖行为克隆(专家轨迹) ❌ 不需要 需保留专家演示的动作顺序。
2025-06-07 17:27:44
968
原创 强化学习概念辨析(On-line,Off-line)
在线学习是一种机器学习范式,其核心特点是智能体(或模型)通过与环境的实时交互逐步获取数据,并在每一步数据获取后立即更新模型参数。整个过程呈现 “数据采集→模型训练→决策优化” 的动态循环,类似于人类通过持续实践不断积累经验的过程。离线学习是一种传统的机器学习范式,其核心特点是智能体(或模型)在训练阶段完全基于 预先收集的静态数据集 进行学习,训练完成后直接用于部署和决策。整个过程分为数据收集→批量训练→固定部署三个独立阶段,类似于人类通过 “复习已有知识” 掌握技能的过程。
2025-06-07 01:36:36
13831
原创 强化学习概念辨析(On-policy,Off-policy)
如有不全面或者不对的地方,还请大家评论区留言,进行增删。首先给出二者定义:On-policy:用于与环境交互的交互策略与算法不断优化(评估)的目标策略为同一策略。Off-policy:用于与环境交互的交互策略与算法不断优化(评估)的目标策略为不同策略。当然,只看上述定义还是很难理解二者之间的具体区别,接下来将对两种经典的强化学习算法(Sarsa,Q-learning)进行分析,并通过二者之间的区别详细阐述On-policy和Off-policy之间的区别。
2025-06-06 18:21:47
1217
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅