硅宝ai-CSDN博客

原创读懂 OpenPI 的 π0.5：从源码出发，真正看懂模型结构、训练逻辑和推理过程

训练时：模型学会“在任意去噪阶段，当前应该往哪个方向修动作”推理时：模型不断告诉你“下一小步该往哪边走”，最后把纯噪声走成可执行动作这一段如果你吃透了，后面很多局部细节就不容易迷路。

2026-03-14 16:44:44 2451

原创 π0.5 深度解析：Physical Intelligence 的开放世界泛化机器人模型

首次证明：端到端学习机器人可以在完全未见过的环境中执行复杂的长时任务。核心创新分层推理架构（高层次语义规划 + 低层次动作执行）异构数据联合训练（97.6% 来自多样化数据源）人类监督指令（学习复杂任务分解）技术意义为开放世界机器人泛化提供了可行路径证明了"间接经验"在机器人学习中的价值展示了 VLA 架构的灵活性和扩展性实际影响距离"家用机器人"更近了一步为机器人公司提供了可借鉴的技术路线推动了整个领域对数据多样性的重视参考资料π0.5 官方博客π0.5 论文 PDF。

2026-03-06 23:33:52 683

原创 Physical Intelligence (π) 研究全面总结：从 π0 到 MEM

Physical Intelligence（π）致力于打造通用机器人基础模型，目标是让机器人应用开发像调用大语言模型一样简单。其技术路线从π0到MEM逐步突破：π0结合视觉语言模型与流匹配技术实现流畅动作控制；FAST动作分词器提升训练效率5倍；π0.5通过异构数据联合训练增强环境泛化能力；π0.6引入知识隔离技术优化开箱性能；π*0.6+RECAP引入强化学习让机器人从经验中学习；最新MEM模型赋予机器人长短期记忆，支持15分钟级复杂任务。该系列创新正在推动机器人智能向更通用、更实用的方向发展。

2026-03-06 21:39:38 628

原创从自动驾驶到大模型，我的第一步

大模型统治深度学习的趋势不可阻挡，抱着“打不过就加入，多学点东西没坏处”的想法，博主利用下班时间摸索了些大模型相关的技术，蹭了蹭国产之光《黑神话：悟空》的热度，做了个有关黑神话的AI助手，初版功能可以聊天查询游戏内容、攻略、背景故事等，后续会继续加入多模态、Agent等功能。因为是刚入门（大佬们请跳过😂）涉及的技术主要是llm的数据制作、训练、微调、量化、rag部署等。以上结果都离不开书生*浦语以及他们开发的InternLM！！悟了悟了的模型使用xtuner在微调得到，首先在一些网络数据上进行。

2024-11-07 22:52:10 1179 2

原创端到端自动驾驶nuPlan数据集-入门使用

最近在了解端到端自动驾驶，接触到了nuPlan数据集，在跑官方demo时遇到些坑，发现相关的资料不多，记录一下。最直接就是看nuplan官网的介绍，和paper。如果只想大概扫一眼这里还有篇中文翻译的自动驾驶轨迹规划之nuplan数据集。一句话总结就是：和nuScenes同一家公司发布的，nuPlan是首个面向planning的大规模自动驾驶基准数据集，不仅包括大量的1200小时多城市的实车驾驶数据，还提供了一整套开环/闭环仿真、多种评价标准、ML规划器开发工具及可视化工具。

2024-09-25 18:37:47 9890 14

原创 3D占用预测（Occupancy Prediction）算法学习

Occupancy算法基础知识和Occ3d数据集制作方法的介绍。简单介绍了Occupancy网络框架，参考一篇综述介绍主流的几种Occ算法；介绍Occ3d数据集制作的一般流程

2024-08-19 00:06:22 6723 1

原创 Segment-anything学习到微调系列3_SAM微调decoder

SAM初步理解，简单介绍模型框架，不涉及细节和代码SAM细节理解，对各模块结合代码进一步分析SAM微调实例，原始代码涉及隐私，此部分使用公开的VOC2007数据集，Point和Box作为提示进行mask decoder微调讲解本篇是第3部分，基于voc2007数据集对SAM decoder进行微调。代码已上传至github。

2024-07-29 14:45:40 3870 5

原创 Segment-anything学习到微调系列2_SAM细节理解和部分代码

SAM初步理解，简单介绍模型框架，不涉及细节和代码SAM细节理解，对各模块结合代码进一步分析SAM微调实例，原始代码涉及隐私，此部分使用公开的VOC2007数据集，Point和Box作为提示进行mask decoder微调讲解此篇为第二部分，如果已看过第一部分的，可以跳过下文的模型总览中介绍输入输出和流程及最后的数据引擎part，和第一篇一致。本篇很多图和部分内容参考自【大模型系列】一文看懂SAM大模型。

2024-07-29 01:00:38 3179

原创 Segment-anything学习到微调系列1_SAM初步了解

SAM初步理解，简单介绍模型框架，不涉及细节和代码SAM细节理解，对各模块结合代码进一步分析SAM微调实例，原始代码涉及隐私，此部分使用公开的VOC2007数据集，Point和Box作为提示进行mask decoder微调讲解。

2024-07-28 23:54:07 2048

原创模型batch推理会更快吗？

当模型在推理阶段使用batch inference时，推理速度并无明显提升，相比单帧多次推理收益不大

2023-10-24 23:05:14 4527 1

原创 opencv 视频处理相关

包含视频格式知识（编解码和封装格式）；如何获取视频信息及视频编解码格式；opencv读取及保存视频，及opencv fourcc编码格式一、基础知识视频的编解码格式和封装格式参考如山似水视频编码与封装⽅式详解参考迷之程序员 opencv视频编码格式参考Alex Chung 视频的编解码格式 - 知乎常⻅的AVI、RMVB、MKV、ASF、WMV、MP4、3GP、FLV等⽂件（.后缀）其实只能算是⼀种封装标准。⼀个完整的视频⽂件是由⾳频和视频两部分组成的，例如H264、Xvid等就是视频编码格

2021-11-22 18:26:48 5183

原创文字识别，mmcor的个人使用记录

mmocr官方代码 : https://github.com/open-mmlab/mmocr首先感谢一波大佬们的无私，把代码都开源了，还有辛勤的商汤的大佬们一直维护更新。这次写点自己的使用记录，给同我一样刚入门的萌新们。一、mmocr的使用环境配置常规的配置参考官网的教程Getting Started（再次感谢大佬们搞的这么仔细的教程），然后如果是30系列的显卡，因为只支持cuda11，所以环境配置有点麻烦，我这边是3070，就把自己的配置过程放上来：# mmocr for 3070co

2021-06-01 19:41:25 5558 34

qq_37795208的博客