v_JULY_v
码龄14年
关注
提问 私信
  • 博客:22,296,044
    社区:387,133
    动态:23,326
    视频:41,222
    22,747,725
    总访问量
  • 276
    原创
  • 56
    排名
  • 106,204
    粉丝

个人简介:七月在线创始人兼CEO,结构之法算法之道blog之博主

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖南省
  • 加入CSDN时间: 2010-10-11
博客简介:

结构之法 算法之道

博客描述:
2015年和团队共同创办大模型科技公司「七月在线」,希望一直不断帮助天下最多人
查看详细资料
  • 原力等级
    当前等级
    9
    当前总分
    19,309
    当月
    438
个人成就
  • 博客专家认证
  • 获得38,409次点赞
  • 内容获得16,147次评论
  • 获得112,914次收藏
  • 代码片获得15,937次分享
创作历程
  • 8篇
    2025年
  • 65篇
    2024年
  • 30篇
    2023年
  • 3篇
    2022年
  • 3篇
    2021年
  • 5篇
    2020年
  • 2篇
    2019年
  • 6篇
    2018年
  • 4篇
    2017年
  • 6篇
    2016年
  • 2篇
    2015年
  • 8篇
    2014年
  • 8篇
    2013年
  • 11篇
    2012年
  • 97篇
    2011年
  • 25篇
    2010年
成就勋章
TA的专栏
  • 大模型与ChatGPT系列:原理、论文、代码、应用
    17篇
  • 改进挑战Transformer:deepseek/mamba
    14篇
  • AIGC与CV多模态:图像生成、视频生成、自动驾驶
    13篇
  • 七月科研论文大模型:含论文的审稿微调、阅读、写作、修订
    17篇
  • 协作机械臂中的模仿学习与动作预测
    14篇
  • 视觉语言动作机器人:从Robotics VLM到VLA
    11篇
  • 专门预训练的机器人大模型
    3篇
  • 具身智能背景下:人形机器人的复现与开发
    13篇
  • RL背景之下:提升机器人泛化能力
    1篇
  • RAG企业知识库问答系列
    5篇
  • AI Agent:包含各种智能体,比如让AI按步骤生成论文
    2篇
  • 机器学习十大算法系列
    29篇
  • 微软面试100题系列
    35篇
  • 程序员编程艺术
    35篇
  • BAT AI面试1000题系列
    3篇
  • 海量数据处理
    5篇
  • 我的创业与读书史
    10篇
  • 十五大经典算法研究
    42篇
  • 经典树结构:红黑树 B树等
    13篇
  • AI应用:CV NLP 推荐
    9篇
  • 技术架构与源码剖析
    7篇
兴趣领域 设置
  • 人工智能
    计算机视觉机器学习深度学习自然语言处理知识图谱自动驾驶语言模型AI作画stable diffusionchatgpt
TA的社区
  • 2022AI面试1000题讨论区
    69 成员 29 内容
    创建者
博主July简介

July,于2010年10月11日开始在CSDN上写博(搜索:结构之法,进入本博客),2015年创办大模型科技公司七月在线(julyedu.com)

——————

目前和各个合伙人共管4个办公室

1 长沙侧重大模型应用开发、全尺寸人形研发

2 北京侧重C端教育及论文/项目/申博等各种1V1

3 武汉侧重B端合作,侧重企业服务、高校服务

4 南京侧重工业场景的协作机器人研发,例如物料分拣、线缆插拔、零部件装配、打螺钉等

—————————————

另,常年招AI工程讲师和学术导师,或其他方面的交流合作,皆可通过CSDN私信,或微博联系:julyweibo,或加AI大模型与具身智能交流Q群:204292834

创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 帖子
  • 视频
  • 关注/订阅/互动
搜TA的内容
搜索 取消

一文通透让Meta恐慌的DeepSeek-V3:在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)

他们的MTP策略主要旨在提高主模型的性能,因此在推理过程中,可以直接丢弃MTP模块,主模型可以独立正常运行此外,还可以重新利用这些MTP模块进行推测性解码,以进一步提高生成延迟// 待更。
原创
发布博客 13 小时前 ·
902 阅读 ·
6 点赞 ·
0 评论 ·
10 收藏

RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据

前言本博客内解读不少VLA模型了,包括π0等,且如此文的开头所说前两天又重点看了下openvla,和cogact,发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla当然,各种VLA我在本文的开头已经详细介绍过,可以参看《
原创
发布博客 22 小时前 ·
850 阅读 ·
8 点赞 ·
1 评论 ·
8 收藏

iDP3的人形遥操代码分析:从数据收集、数据转换到VR安装、人形机器人遥控

如此文《》的第三部分开头所说跑iDP3的整个流程分为:数据采集、数据转换、数据预处理,然后做训练、部署、可视化,具体而言,iDP3开源了两个代码仓库,一个是学习,一个是摇操作,其中对于后者,已经在这两篇文章里「」进行了详尽细致的分析,对于前者,则是本文。
原创
发布博客 前天 21:24 ·
695 阅读 ·
18 点赞 ·
0 评论 ·
9 收藏

一文速览DeepSeek R1:如何通过纯RL训练大模型的推理能力以比肩甚至超越OpenAI o1(含Kimi K1.5解读)

而DeepSeek-V3和Kimi K1.5的意义在于,即便它两和OpenAI o1的实现不一致(当然,也可能很大程度上一致) 也不是很重要的事情了,因为从结果的角度出发,它两的效果比肩甚至超越o1,单这一点 就足够了。没想到,DeepSeek-V3还没解读完,DeepSeek-R1又来了,而且几乎同一时期,Kimi K1.5也来了。有意思的在它两的技术报告里,很多指标都比肩甚至超越OpenAI的o1模型。因此,本文重点解读一下它两的技术报告。
原创
发布博客 2025.01.21 ·
8595 阅读 ·
22 点赞 ·
0 评论 ·
23 收藏

iDP3的训练与部署代码解析:从数据可视化vis_dataset.py、训练脚本train.py到部署脚本deploy.py

如此文《UMI——斯坦福刷盘机器人:通过手持夹爪革新数据收集方式,且使用DiffusionPolicy预测动作(含代码解读)》的开头所说,我司正在借助iDP3做通用化改写,使得一套策略控制各种机器人更改通讯脚本避免每来一套机械臂,就得比较费劲的写对应的通讯脚本至于的介绍详见此文实际改写时目标是去适配iDP3,从而借助iDP3达到对外通用化的目的相当于而关于iDP3的介绍,以及iDP3的learning代码在之前的文章都详细分析过了「前者详见,后者详见」,故本文侧重介绍iDP3的部署、训练、预处理。
原创
发布博客 2025.01.20 ·
1250 阅读 ·
12 点赞 ·
0 评论 ·
32 收藏

iDP3的Learning代码解析:逐步分解iDP3的数据集、模型、动作预测策略代码(包含2D和3D两个版本)

前言今25年1.14日起,我和同事孙老师连续出差苏州、无锡、南京、上海我们连连感慨,绝大部分工厂都将在今2025年开始做一系列智能升级、智能改造,包括且不限于线缆插拔、智能装配、打螺钉,而背后用的策略方法,也将从传统的深度学习方法,往大模型+模仿学习RL方面迁移,这是一股势不可挡的浪潮本想着​这几天出差完后把ipd3的源码也做下解读,想了下,只要有时间空闲,我便开始解读吧,于此,今天便有了本文。
原创
发布博客 2025.01.16 ·
1368 阅读 ·
16 点赞 ·
3 评论 ·
17 收藏

一文速览CogACT及其源码剖析:把OpenVLA的离散化动作预测换成DiT,逼近π0(含DiT的实现)

近年来,配备视觉能力的机器人控制模型引起了广泛的兴趣,比如7-RT-1,8-RT-2-将7D动作分解为离散的token,并使用VLM PaLI-X [13]像语言token一样自回归地预测它们30-Openvla-采用和RT-2类似的方法,对动作进行tokenizing,并在Open-X-Embodiment数据集[48]上训练Prismatic VLM其中,大规模视觉-语言-动作(VLA)模型的发展[
原创
发布博客 2025.01.12 ·
1559 阅读 ·
13 点赞 ·
0 评论 ·
26 收藏

一文通透OpenVLA及其源码剖析——基于Prismatic VLM(SigLIP、DinoV2、Llama 2)及离散化动作预测

一个多月前,有朋友曾说,一个月内,π0 会开源来着,当时虽然觉得不太可能,但还是抱着期待可还是没开..没开源必然是有点遗憾,故这两天我一直在考虑、对比,看目前哪个vla最逼近π0,然后借鉴π0的思路,去改造该vla前两天又重点看了下openvla,和cogact,然后对此文增加了不少解读内容,且发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla。
原创
发布博客 2025.01.11 ·
2543 阅读 ·
16 点赞 ·
1 评论 ·
18 收藏

GRAPE——RLAIF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力(含24年具身模型汇总)

过去的这两年,工作之余,我狂写大模型与具身的文章,加之具身大火,每周都有各种朋友通过CSDN私我帮忙:要么是做科研想复现,要么是工厂想做自动化生产线的智能升级,要么是想通过机械臂/人形解决各种业务场景问题让我感慨:二零一一年,因为算法,首次有「天下无人不识君」的感觉,过去这两年,因为大模型和具身机器人,再次有了这感觉具身的论文解读过很多之后,便会发现整个具身的技能图谱大概如下所示(建议按照从下至上的顺序看)其中,action head有基于LSTM的基于diffusion model的。
原创
发布博客 2024.12.31 ·
3999 阅读 ·
27 点赞 ·
0 评论 ·
25 收藏

Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)

本文最开始属于此文《视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中,在机器人动作预测也被运用的越来越多,加之DiT确实是一个比较大的创新,影响力大,故独立成本文在ViT之前,图像领域基本是CNN的天下,包括扩散过程中的噪声估计器所用的U-net也是卷积架构,但随着ViT的横空出世,人们自然而然开始考虑这个噪声估计器可否用Transformer架构来代替2022年12月,William Peebles(
原创
发布博客 2024.12.29 ·
4582 阅读 ·
26 点赞 ·
1 评论 ·
46 收藏

YAY Robot——斯坦福和UC伯克利开源的:人类直接口头喊话从而实时纠正机器人行为(含FiLM详解)

复杂的机器人任务可能需要多个单独的基础动作的序列。例如,如图1所示将多个物品装入袋子中需要依次抓取每个物体,将其移动到袋口附近,然后插入解决此类多阶段任务的一个常用框架是通过分层抽象,其中高级策略指挥具体行为,然后由低级策略执行这些行为 [36,68,69,18]
原创
发布博客 2024.12.24 ·
2623 阅读 ·
9 点赞 ·
0 评论 ·
15 收藏

从DINO、Grounding Dino到DINOv2、DINO-X——自监督视觉Transformer的升级改进之路(基于ViT)

前言之所以关注到DINOV2,原因在于我解读的多个具身机器人模型的视觉基座都用的它,比如不过,实话讲,DINO论文的可读性是真的不高,使得本次解读不易..总之,本文目前只是个初稿,后面还得花不少时间反复优化。
原创
发布博客 2024.12.21 ·
3173 阅读 ·
32 点赞 ·
0 评论 ·
16 收藏

一文速览mamba的各种变体与改进:从MoE-Mamba、Vision Mamba、VMamba、Jamba到Falcon Mamba

其实早在今年4月,我便在微博上说道:本月已经攒了好多篇博客待写,十之八九为项目需要,十之一二为课程需要今年快结束了,截止目前为止,前三篇都已写了,至于MOE模型也写了deepseek,但mamba的几个重要变体一直没来得及写,原因就太多了,比如直到近期,具身机器人发文的速度稍稍慢下来了(注意,只是稍稍),便有时间写一下之前计划已久的大模型相关的文章,包括本文要写的各种mamba变体或改进毕竟本文之前的mamba解读确实影响力大,加之基于mamba的变体或改进又层出不穷,故本文来了。
原创
发布博客 2024.12.07 ·
4634 阅读 ·
27 点赞 ·
0 评论 ·
40 收藏

一文通透vLLM与其核心技术PagedAttention:减少KV Cache碎片、提高GPU显存利用率(推理加速利器)

众所周知,运行GPT这样的大模型应用非常昂贵,需要大量的硬件加速器,如GPU「我司过去半年做了一系列大模型应用,比如基于大模型的论文审稿、翻译、修订、对话、idea提炼,对此深有感触根据最近的估算,处理一个LLM请求的成本可能是传统关键词查询的10倍[43]。鉴于这些高昂的成本,提高吞吐量——从而降低成本——变得尤为重要。
原创
发布博客 2024.12.03 ·
3758 阅读 ·
30 点赞 ·
0 评论 ·
19 收藏

从Octo与TinyVLA、DeeR-VLA、3D-VLA——OpenVLA之外的视觉语言动作模型VLA的持续升级

许多研究使用从机器人收集的大量轨迹数据集来训练策略这些工作主要集中在单一的embodiment上,而Octo则在跨多个体现组装的机器人数据集上训练策略,增加了训练数据集的有效规模,并允许对多种机器人设置进行微调最近,论文集中于扩展机器人策略的泛化能力。多项研究利用多样的非机器人数据或预训练的视觉-语言基础模型来提升策略对新场景和任务的泛化能力[86,103,96,16,38,11,84,36,4,37,7,3,46,15,23]
原创
发布博客 2024.12.01 ·
5089 阅读 ·
18 点赞 ·
4 评论 ·
44 收藏

我建了一个「人形机器人的复现与优化」交流组,如果你,或所在团队、或所在实验室、或所在公司在复现一些开源的人形,比如humanplus、idp3等,欢迎私我加群 当然,如果在复现一些机械臂相关工作,比如umi/dexcap/rekep/RDT,也有群 也可私我

发布动态 2024.11.12

斯坦福泡茶机器人DexCap源码解析:涵盖收集数据、处理数据、模型训练三大阶段

它可以捕捉颜色图像、深度图像、姿态数据以及手部关节数据,并将这些数据保存到指定的目录中首先,导入库"""示例用法"""import argparse # 用于解析命令行参数import copy # 用于复制对象import numpy as np # 用于数值计算import open3d as o3d # 用于3D数据处理import os # 用于操作系统相关功能。
原创
发布博客 2024.11.10 ·
4124 阅读 ·
23 点赞 ·
0 评论 ·
38 收藏

Diffusion Policy——斯坦福UMI所用的动作预测算法:基于扩散模型的扩散策略(从原理到其编码实现)

所谓扩散策略,是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法,如下图所示a)具有不同类型动作表示的显式策略(b)隐式策略学习以动作和观察为条件的能量函数,并优化能够最小化能量景观的动作c)通过“条件去噪扩散过程在机器人行动空间上生成行为”,即该扩散策略策略不直接输出一个动作,而是推断出「基于视觉观察的动作-评分梯度」,进行K次去噪迭代。
原创
发布博客 2024.11.09 ·
7658 阅读 ·
60 点赞 ·
6 评论 ·
77 收藏

英伟达HOVER——用于人形机器人的多功能全身控制器:整合不同的控制模式且实现彼此之间的无缝切换

人形机器人是一种多功能的形态,支持多种机器人任务和应用,包括双手操作[1–3]、双足行走[4–7]和灵活的全身控制[8–14]。尽管这些努力展示了令人印象深刻的成果,每个项目都根据其特定任务和场景使用了不同的全身控制公式。
原创
发布博客 2024.11.06 ·
4744 阅读 ·
16 点赞 ·
2 评论 ·
33 收藏

多模态PaliGemma 2(含1代):Google推出的基于SigLIP和Gemma 2的视觉语言模型(附SigLIP详解)

PaliGemma 是一个开放的视觉语言模型(VLM),基于 SigLIP--So400m 视觉编码器和 Gemma-2B 语言模型其结合了PaLI视觉语言模型和Gemma语言模型家族的特点。
原创
发布博客 2024.11.05 ·
4089 阅读 ·
14 点赞 ·
0 评论 ·
31 收藏
加载更多