v_JULY_v
码龄15年
求更新 关注
提问 私信
  • 博客:23,494,269
    社区:388,843
    动态:24,826
    视频:46,883
    23,954,821
    总访问量
  • 323
    原创
  • 64
    排名
  • 112,869
    粉丝
  • 4
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖南省
加入CSDN时间: 2010-10-11

个人简介:七月在线创始人兼CEO,结构之法算法之道blog之博主

博客简介:

结构之法 算法之道

博客描述:
2015年和团队共同创办具身智能科技公司「七月在线」,希望一直不断帮助天下最多人
查看详细资料
个人成就
  • 博客专家认证
  • 获得44,410次点赞
  • 内容获得16,624次评论
  • 获得127,169次收藏
  • 代码片获得22,124次分享
  • 原力等级
    原力等级
    9
    原力分
    22,605
    本月获得
    282
创作历程
  • 55篇
    2025年
  • 65篇
    2024年
  • 30篇
    2023年
  • 3篇
    2022年
  • 3篇
    2021年
  • 5篇
    2020年
  • 2篇
    2019年
  • 6篇
    2018年
  • 4篇
    2017年
  • 6篇
    2016年
  • 2篇
    2015年
  • 8篇
    2014年
  • 8篇
    2013年
  • 11篇
    2012年
  • 97篇
    2011年
  • 25篇
    2010年
成就勋章
TA的专栏
  • 大模型与ChatGPT系列:原理、论文、代码、应用
    17篇
  • 改进与挑战Transformer:mamba/TTT等
    11篇
  • 火爆全球的DeepSeek系列模型
    10篇
  • 多模态与AIGC发展史:赋能图像及视频生成、具身智能
    15篇
  • ALOHA ACT系列:mobile aloha为代表的IL
    10篇
  • Diffusion Policy系列:umi与dexcap
    8篇
  • LeRobot系列:封装了ACT/DP/π0等
    6篇
  • VLM规划下加约束:SayCan、ReKep等
    4篇
  • 机械臂VLA发展史:RT2/OpenVLA/3D VLA
    11篇
  • 通用VLA π0:复现与二次开发
    11篇
  • RL机器人:HIL-SERL/WSRL/VITAL等
    6篇
  • 人形manipulation:iDP3/GR00T/Tele
    10篇
  • 人形locomotion:Exbody/H2O/ASAP
    15篇
  • loco-manipulation:CLONE/HOMIE等
    6篇
  • 七月科研论文大模型:含论文的审稿微调、阅读、写作、修订
    16篇
  • RAG企业知识库问答系列
    5篇
  • AI Agent:包含各种智能体,比如让AI按步骤生成论文
    2篇
  • 机器学习十大算法系列
    29篇
  • 微软面试100题系列
    35篇
  • 程序员编程艺术
    35篇
  • BAT AI面试1000题系列
    3篇
  • 海量数据处理
    5篇
  • 我的创业与读书史
    10篇
  • 十五大经典算法研究
    42篇
  • 经典树结构:红黑树 B树等
    13篇
  • AI应用:CV NLP 推荐
    9篇
  • 技术架构与源码剖析
    7篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 2

TA参与的活动 0

兴趣领域 设置
  • 人工智能
    深度学习nlpchatgpt
  • 前沿技术
    机器人
博主July简介

July,于2010年10月11日开始在CSDN上写博(搜索:结构之法,进入本博客),2015年创办具身智能的场景落地与定制开发商「七月在线」(julyedu.com)

————————

目前和各个合伙人共管4个办公室:

  • 1 长沙侧重大模型赋能机械臂和人形的定制开发,例如各种插拔场景、智能装配、展厅讲解、上下半身都大幅度动的高级舞蹈定制等
  • 2 武汉具身团队侧重指导各高校对一系列世界级前沿论文的复现
  • 3 上海(原南京团队后将迁至上海)具身团队侧重人形大小脑的协调开发,包含上肢操作、下肢运动规划控制,在统一协调中完成在工厂的落地
  • 4 北京教育团队侧重C端教育 比如论文/项目/申博等各种1V1,和B端企业服务、高校服务

———————————————

任何层面的合作,皆可通过CSDN私信,或微博联系@julyweibo。另,AI大模型与具身智能交流Q群:204292834

创作活动更多

新星杯·14天创作挑战营·第13期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛!注: 1、参赛者可以进入活动群进行交流、互相鼓励与支持(开卷),虚竹哥会分享创作心得和涨粉心得,答疑及活动群请见:https://bbs.csdn.net/topics/619781944 【进活动群,得奖概率会更大,因为有辅导】 2、文章质量分查询:https://www.csdn.net/qc

90人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 资源
  • 代码仓
  • 帖子
  • 视频
更多
  • 最近

  • 文章

  • 专栏

  • 资源

  • 代码仓

  • 帖子

  • 视频

  • 社区

  • 关注/订阅/互动

搜索 取消

Q-chunking——带有动作分块的强化学习:基于人类演示,进行一定的连贯探索(且可做到无偏的n步价值回溯)

UC伯克利提出Q-chunking方法,通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略,预测并执行未来h步动作,利用时序差分训练评估器进行无偏的n步价值回传。研究显示,这种方法能加速价值传播、保持无偏估计,同时通过行为约束利用离线数据中的时序连贯动作序列,有效缓解探索难题。相比分层RL,Q-chunking简化了优化过程,在保持探索优势的同时提升了样本效率。相关代码和论文已在GitHub和arXiv公开。
原创
博文更新于 8 小时前 ·
852 阅读 ·
11 点赞 ·
0 评论 ·
18 收藏

从RoboMimic、DeepMimic到带物理约束的MaskMimic——人形全身运控的通用控制器:自此打通人类-动画-人形的训练路径

摘要:本文探讨了机器人动作模仿技术DeepMimic及其改进方案MaskMimic的发展历程。该技术通过结合深度强化学习和动作跟踪,实现了让虚拟角色和机器人模仿人类动作的能力。相比传统需要为每个动作单独设计控制器的做法,DeepMimic采用统一的神经网络架构和跟踪型奖励机制,只需提供参考动作即可生成对应控制策略。文章还介绍了该技术在宇树G1机器人上实现查尔斯顿舞的实际应用案例,以及从DeepMimic到PHC(物理角色控制)的技术演进路径。
原创
博文更新于 前天 16:33 ·
1986 阅读 ·
27 点赞 ·
0 评论 ·
22 收藏

实时动作分块RTC——为解决高延迟,让π0.5也可以点燃火柴、插入网线:执行当前动作分块时生成下一个分块,且已执行的冻结 未执行的则补全

摘要 Physical Intelligence公司提出了一种实时动作分块技术(RTC),解决了视觉-语言-动作模型(VLA)在高精度任务中的延迟问题。该技术将异步动作分块建模为修补问题,在执行前一个动作块的同时生成下一个兼容的动作块,有效避免了传统分块方法在切换点产生的不连续性。RTC适用于基于扩散或流的可变长度动作模型,无需改变现有训练流程。实验表明,该方法能实现连续稳定的控制信号,支持如点燃火柴、插入网线等高精度操作任务,突破了VLA在实时控制中的性能瓶颈。该成果发表于2025年6月,为VLA在具身智
原创
博文更新于 前天 11:45 ·
1276 阅读 ·
28 点赞 ·
0 评论 ·
11 收藏

π0的微调——如何基于各种开源数据集、以及私有数据集微调openpi(含我司七月的微调实践及openpi在国产臂上的部署)

25年2.4日,几个月前推出π0的公司Physical Intelligence (π)宣布正式开源π0及π0-FAST,如之前所介绍的,他们对用超过 10,000 小时的机器人数据进行了预训练该GitHub代码仓库包括4个方面:简言之,就是π0本身的代码和权重、特定平台上特定任务的微调checkpoint、推理代码、微调代码。
原创
博文更新于 2025.07.15 ·
12197 阅读 ·
54 点赞 ·
24 评论 ·
75 收藏

一文通透GR00T N1和N1.5——英伟达开源的通用人形VLA:VLM Eagle-2慢思考、DiT快反应,且可类似LAPA利用海量的无标注视频做训练

就在今天3.19日的凌晨,英伟达发布的GR00T N1还是很有含金量的(上午已有好几个朋友私我了),由此可以看到很多相关工作的影子,比如helix π0 LAPA,具体而言,其具有双系统架构至于昨晚计划的fourier-lerobot对idp3的封装解读,则作为这两天的第二篇顺便说个事,随着我司「七月在线」接的B端大客户具身订单越来越多了,非常缺人。
原创
博文更新于 2025.07.14 ·
7496 阅读 ·
36 点赞 ·
7 评论 ·
53 收藏

WSRL——热启动的RL如何20分钟内控制机器人:先离线RL预训练,之后离线策略热身(模拟离线数据保留),最后丢弃离线数据做在线RL微调

毕竟未来一两月,我司长沙分部的规划是对于机械臂,考虑IL + RL结合下的方法,继续优化USB插拔、电源插拔等各种插拔场景对于人形,继续unitree_IL_lerobot,以及全身遥操、跳舞、展厅讲解针对各种插拔场景,7.4日下午,我司长沙分部同事文弱发我了一个介绍WSRL的X链接,我一看,挺不错,很有价值,也很有意义,后续准备试下,故本文先解读下一为指导将来的实践,二为分享,与更多有志于在线RL方向的同仁多交流(欢迎私我一两句的简介,邀你加入:七月:HIL-SERL/WSRL/VITAL交流
原创
博文更新于 2025.07.13 ·
1321 阅读 ·
16 点赞 ·
0 评论 ·
20 收藏

NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型:在VLM的导航规划下,执行基于视觉的运动策略(含NaVILA和rsl_rl的源码解析)

如此前的博客所说,我司「七月在线」正在并行开发多个订单,目前正在全力做好每一个订单,因为保密协议的原因,暂时没法拿出太多细节出来分享​但可以持续解读我们所创新改造或的对象,即解读paper和开源库「当然 有些paper/库还没开始用,但也可以提前解读,作为关注了解而其中有一个订单涉及到行走之外的导航、避障,项目组在确定解决方案的过程中,看到了NaVILA这个工作,故本文来解读下。
原创
博文更新于 2025.07.13 ·
5413 阅读 ·
14 点赞 ·
2 评论 ·
18 收藏

一文通透ACT——斯坦福ALOHA团队推出的动作分块算法:基于CVAE一次生成K个动作且做时间集成

根据上一篇文章《大模型机器人发展史:从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人》可知,斯坦福Mobile ALOHA在其发布的论文中提到相当于Mobile ALOHA涉及到了这三大关键技术:ACT、Diffusion Policy、VINN,故本文分三个部分一一阐述。
原创
博文更新于 2025.07.13 ·
37020 阅读 ·
140 点赞 ·
35 评论 ·
369 收藏

vla openpi实现自主智能分拣​

发布视频 2025.07.12

π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)

在此文之前,我花了一天半,详细解读了清华这个机器人扩散大模型RDT,包括其每一个附录,并在上文中预告说:​下一篇是一个3B的机器人大模型打通7种不同品牌的机械臂,这几个工作宣告机器人真正进入大模型时代故,本文来了。
原创
博文更新于 2025.07.11 ·
28168 阅读 ·
111 点赞 ·
21 评论 ·
221 收藏

π0.5的KI改进版——知识隔离:让VLM在不受动作专家负反馈的同时,输出离散动作token,并根据反馈做微调(而非冻结VLM)

本文解读π0公司提出的VLA(视觉-语言-动作)模型改进方法。针对传统VLA模型在引入连续控制模块(如动作专家)时易破坏预训练视觉语言模型(VLM)知识的问题,研究者提出"知识隔离"技术:通过切断动作专家梯度对VLM主干的传播,既保护预训练语义知识,又允许VLM通过离散动作token微调适配机器人任务。该方法兼具训练高效、推理实时(支持高频连续动作输出)和知识保留优势,相较混合自回归-扩散方案显著提升性能。文章还对比了动作分块表示、状态编码等关键技术
原创
博文更新于 2025.07.11 ·
774 阅读 ·
6 点赞 ·
0 评论 ·
4 收藏

ASAP——让宇树G1后仰跳投且跳舞:仿真中重现现实轨迹,然后通过增量动作模型预测仿真与现实的差距,最终缩小差距以对齐

作者在2025年2月首次看到CMU的ASAP项目,当时对机器人后仰跳投功能不以为然。一个月后,西湖机器人公司发布的宇树G1跳舞视频也未改变其看法。直到一个娱乐集团提出通过二次开发使机器人跳舞以促进消费,作者才意识到该技术的实际应用价值。作者反思了自己对技术潜在价值的忽视,并在与同事讨论后,决定深入研究CMU的ASAP工作。本文由此展开,探讨机器人跳舞技术的行业应用
原创
博文更新于 2025.07.11 ·
5417 阅读 ·
36 点赞 ·
0 评论 ·
47 收藏

vla openpi自主抓零食

发布视频 2025.07.11

π0.5——离散化token自回归训练,推理时则用连续动作表示,且加强推理(同一个模型中先高层拆解出子任务,后低层执行子任务)

今天一早,朋友圈刷到π0出0.5版本了,之后,我组建的「七月具身:π0复现微调交流群」群中,也在讨论这事,并说:七月老师要更新博客了这不就来了现在具身模型的发展 还不如大语言模型那样成熟π0 发新版了,意味着和Google的RT(大概率是不更了),以及figure(没开源过)等等——还有别的一些模型 没列举全,进入了少数迭代型的具身模型的行列。
原创
博文更新于 2025.07.10 ·
6222 阅读 ·
37 点赞 ·
3 评论 ·
35 收藏

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散

如上一篇文章所说,在叠衣服的过程中,我会带着团队对比各种模型、方法、策略,毕竟针对各个场景始终寻找更优的解决方案,是我个人和我司的职责之一且个人认为,如果只是单纯针对叠衣服这个任务,个人认为还是VLA会表现的更好些加之我其实很早就关注到了HybridVLA,只是一直没来得及解读它故本文便来解读这个HybridVLA
原创
博文更新于 2025.07.10 ·
2965 阅读 ·
25 点赞 ·
2 评论 ·
21 收藏

TWIST——基于动捕的全身遥操模仿学习:教师策略RL训练,学生策略结合RL和BC联合优化

6月团队密集开展具身智能开发,连续实现机械臂(piper)、人形机器人(宇树G1)的VR遥操与自主任务训练。重点突破TWIST系统,该创新方案将全身遥操建模为实时动作重定向问题,通过MoCap数据采集与两阶段RL训练策略,解决了人机异构体差异带来的控制瓶颈。系统整合15,000段离线动作与150段实时数据,在29自由度的UnitreeG1上实现多样化类人技能。相比传统模块化控制器或局部动作捕捉方案,TWIST通过末端执行器扰动训练和联合优化关
原创
博文更新于 2025.07.09 ·
2097 阅读 ·
25 点赞 ·
0 评论 ·
29 收藏

从宇树摇操avp_teleoperate到unitree_IL_lerobot:如何基于宇树人形进行二次开发

如之前的文章所述,我司「七月在线」正在并行开发多个订单,目前正在全力做好每一个订单,因为保密协议的原因,暂时没法拿出太多细节出来分享​但可以持续解读我们所创新改造或二次开发的对象,即解读paper和开源库「当然 有些paper/库还没开始用,但也可以提前解读,作为关注了解而对于我司人形开发的订单,背后的机器人多半基于这三家:宇树、傅利叶、乐聚且无论咱们是用傅利叶集成的lerobot——,还是宇树集成的lerobot——,都是可以用的摇操代码avp_teleoperate「其基于此文《
原创
博文更新于 2025.07.09 ·
5722 阅读 ·
40 点赞 ·
5 评论 ·
26 收藏

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于精密操作的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

摘要:VITAL框架通过两阶段策略(全局视觉定位+局部触觉操作)解决精密操作任务泛化难题。第一阶段利用视觉语言模型进行目标定位,第二阶段复用自中心视觉与触觉的局部策略完成毫米级操作。该方案结合模仿学习(32次演示)与强化学习微调(45分钟),通过语义数据增强保持泛化性,显著降低对场景变化的敏感性。实验显示,该方法在USB插入等任务中兼顾精度与跨环境适应性,为机器人精细操作提供新思路。(149字)
原创
博文更新于 2025.07.08 ·
1763 阅读 ·
27 点赞 ·
0 评论 ·
12 收藏

以Mobile ALOHA为代表的模仿学习的爆发:从Dobb·E、Gello到ALOHA、OK-Robot、UMI、DexCap、伯克利FMB

且一年前,因为对ChatGPT背后技术原理巨大的「好奇心」,加之极高的「分享热情」、以及想写一篇关于其原理最全面 最深入 最细致文章的「决心」,彻底改变了过去一年的轨迹​博客证明了技术研究能力,课程证明了教学教研能力,项目证明了带队开发能力说干就干。
原创
博文更新于 2025.07.08 ·
16447 阅读 ·
60 点赞 ·
11 评论 ·
173 收藏

UC伯克利HIL-SERL——结合视觉和人类示教与纠正的RL方法(直接真实环境中RL开训,可组装电脑主板和插拔USB)

机器人强化学习任务可以通过一个来定义,其中是状态观测(例如,结合机器人的本体状态信息的图像)是动作(例如,期望的末端执行器扭转)是初始状态的分布,是依赖于系统动态的未知且可能是随机的转移概率而是奖励函数,编码任务最优策略是最大化奖励的累计期望值的策略,即,其中期望是通过关于初始状态分布、转换概率和策略在实践中,策略通常建模为由神经网络参数化的高斯分布为了实现机器人任务的强化学习算法,必须仔细选择合适的状态观察空间和动作空间。
原创
博文更新于 2025.07.06 ·
7063 阅读 ·
26 点赞 ·
5 评论 ·
56 收藏
加载更多