- 博客(64)
- 收藏
- 关注
原创 知识图谱论文精读(一):Extract, Define, Canonicalize: An LLM-based Framework for KnowledgeGraph Construction
给定一段文本以及从中抽取得到的关系三元组列表,为其中出现的每一种关系撰写定义。
2026-05-26 23:10:57
365
原创 Agent系列(三):协议栈
AI模型与外部世界交互。实现LLM与外部数据源,工具和服务之间得无缝集成。客户端是主机与服务器之间的桥梁。与服务器保持 1:1 连接的协议客户端:提供工具与外部数据。
2026-05-21 19:25:59
41
原创 Agent系列(二):多Agent架构
的认知模式(比如让两个大模型互相找对方代码的 Bug,直到没有 Bug 为止)。我之前的列表更偏向企业工程落地,没有单独把这种学术和深度推理场景的“群聊辩论”单独归类。是静态的、单次的(用户进来,网关判断你是查话费还是投诉,分流完就结束了);而交接式(Handoff)是动态的、有上下文的。一个高智商的“主模”当大脑负责拆解(Planning),分发给底下的“小弟”(Workers)去干活,最后主模汇总。,像 MetaGPT 搞软件开发,产品经理干完给架构师,架构师给程序员。拼成一张网,互不服管,就是。
2026-05-21 15:33:47
37
原创 Agent系列(一):主流架构
是一种能够自主感知环境、做出决策并采取行动的智能实体。是一种预定义的、线性的任务执行流程,旨在自动化和优化特定业务流程。中每个智能体都是具备独立思考和决策能力的自主实体。实现真正的智能协作。相比之下,更像是一个"精密的生产线",通过预定义的流程节点和条件分支,实现业务流程的自动化执行。在面对极其复杂或步骤繁多的任务,多 Agent 系统会将其拆解为若干个易于处理的子任务。系统内的每个 Agent 都被赋予了,且只专注于自己擅长的领域。
2026-05-21 11:05:33
436
原创 GB/T 42131——2022 知识图谱
知识的推理计算是从已有的事实或关系推断出知识图谱隐性知识的发现与挖掘。例如,对知识图谱中所有“公司”实体的“成立年份”和“所属行业”进行分布统计,从而快速获得产业的时间与领域格局全貌。:将图中的实体和关系转化为低维、稠密的向量表示,使得语义上相近的实体/关系在向量空间中的距离也近。2.实体类型之间的关系:明确定义类与类之间的语义连接,如 "是一种"(继承关系)、"治疗"、"包含" 等。随本体模型、数据资源等变化产生的新知识对原有知识的补充、更新或重组的活动。实体,实体类型,实体组合或实体类型组合间的联系。
2026-05-20 01:25:43
358
原创 具身智能数据Pipeline
1.目的:写一个脚本去自动化的执行整套具身智能数据处理管线输入为几百 GB 的原始 HDF5 格式机器人轨迹数据(含视觉图像、机械臂关节状态、动作指令、文本标签),输出为。2.交付物:不是虚假的成功率,而是清洗速度(如处理100GB数据仅需XX分钟),以及清洗前后数据质量的可视化对比图。vLLM。
2026-05-03 23:28:32
475
原创 具身智能论文精度(八):Pi0.6
算法 1 给出了完整方法的流程概览。数据收集:通过模型自主交互(可选择性加入专家修正干预)采集数据;价值函数训练:按式 (1) 训练分布式价值函数;策略训练:按式 (3) 训练优势条件化 VLA 策略。预训练阶段使用全部历史示范数据;针对每个下游技能 \(l(i)\) 的专项微调阶段,会额外加入自主交互采集的数据。在实际实现中,专项技能模型(specialists)由预训练模型微调得到,而最终的通用模型(generalist)则从零开始训练。更多方法细节见附录 F。输入:多任务示范数据集。
2026-05-02 11:42:00
479
原创 具身智能论文精读(七):Pi0.5
若要让机器人真正具备实用价值,就必须走出实验室,在真实物理世界中完成各类实际应用任务。尽管视觉 - 语言 - 动作(VLA)模型在机器人端到端控制上已取得亮眼效果,但这类模型在真实野外场景中的泛化能力上限,仍是一个尚未解决的开放性问题。本文提出。
2026-05-02 09:19:43
427
原创 具身智能论文问答(三):Open VLA
与 Octo 这种从头训练并拼凑各个预训练组件(视觉、语言分立)的做法不同,OpenVLA 采用了端到端(End-to-End)的直觉范式:它直接将预训练的视觉-语言大模型(Prismatic-7B)作为骨干,把机器人动作当成一种外语,通过语言模型的自回归机制进行微调预测。实验表明,如果仅在目标数据上微调,模型其实能完成简单的单一指令,但在面临多指令干扰、从未见过的桌面背景或新物体(Semantic Generalization)时,OpenX 数据集注入的“见多识广”的先验底座是决定成败的关键。
2026-05-01 17:45:24
275
原创 具身智能论文精读(五):OpenVLA
在互联网规模视觉 - 语言数据与多样化机器人示教数据上预训练的大尺度策略模型,有望彻底变革机器人新技能的习得方式:无需从零开始训练新行为,只需对这类视觉 - 语言 - 动作(VLA)模型进行微调,即可获得具备强鲁棒性与泛化能力的视觉运动控制策略。然而 VLA 模型在机器人领域难以普及,主要存在两大瓶颈:1)现有 VLA 模型大多闭源,无法公开使用;2)过往研究缺乏面向新任务的高效微调方案,而这恰恰是落地普及的关键。针对以上问题,本文提出OpenVLA:一款参数量 70 亿的开源 VLA 模型,基于。
2026-05-01 15:32:10
464
原创 具身智能论文问答(2):Diffusion Policy
把机器人的“动作规划”,变成一个类似于“AI生成图像”的去噪过程。你给 AI 一段文字(Prompt),AI 先生成一张完全是由雪花噪点组成的乱码图,然后一步步把噪点去掉,最后变成一张精美的猫咪照片。机器人身上的摄像头拍到的当前画面,以及它的机械臂当前的位置(这些被称为 Observation/条件)。不是生成一张画,而是生成未来一段时间内机械臂要走的一系列轨迹(Action Sequence)。一开始,AI 会随机生成一段乱七八糟、毫无逻辑的动作轨迹(纯噪声)。
2026-05-01 12:30:53
397
原创 具身智能论文精读(四):Diffusion Policy
本文提出扩散策略(Diffusion Policy),一种全新的机器人行为生成范式:将机器人视觉运动策略建模为条件去噪扩散过程。本文在 4 套机器人操作基准测试集、共计 12 项不同任务上对扩散策略开展全面基准评测,结果表明:该方法性能持续超越现有业界最优机器人学习算法,平均性能提升达46.9%。扩散策略学习动作分布得分函数的梯度,推理阶段通过多步随机朗之万动力学沿该梯度场迭代优化输出动作。研究发现,将扩散模型范式用于机器人策略建模具备显著优势:可平稳处理多模态动作分布、适配高维动作空间。
2026-05-01 11:28:21
407
原创 具身智能论文问答(一):ACT
在构建 HDF5/Zarr 等大规模具身数据集时,我们需要定义“动作”。相比于“相对关节位移”或“末端 6DoF 位姿”,为什么 ACT 在绝大多数开源工程实践中,偏好将网络输出的 Action 定义为“绝对关节位置 (Absolute Joint Positions)”?
2026-04-30 19:43:15
403
原创 马尔可夫链
未来独立于过去,只基于当下。马尔科夫链为状态空间中经过从一个状态到另一个状态的转换的随机过程,该过程要求具备“”,即下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性 ”称作。上图为两个状态的转换。如果1次运动后的状态概率分别是多少?如果2次运动后的概率分别是多少?上面的这些矩阵也就是状态转移矩阵。
2026-04-28 10:58:15
161
原创 编码器(AE,VAE)
算法模型包含两个主要的部分:Encoder(编码器)和Decoder(解码器)。编码器和解码器可以看作是两个函数,一个用于将高维输入(如图片)映射为低维编码(code),另一个用于将低维编码(code)映射为高维输出(如生成的图片)。这两个函数可以是任意形式,但在深度学习中,我们用神经网络去学习这两个函数。AE的Encoder是将图片映射成“数值编码”,Decoder是将“数值编码”映射成图片。如果输入层神经元的个数n大于隐层神经元个数m,那么我们就相当于把数据从n维降到了m维;
2026-04-27 21:30:36
245
原创 具身智能论文精读(三):Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware(ACT)
精细操作任务依赖高精度闭环反馈,需要机器人具备极强的手眼协调能力,从而根据环境变化实时调整动作、重新规划轨迹。此类操作任务的例子包括打开调味杯盖或安装电池,这些操作涉及精细的操作,如捏合、撬开和撕裂,而非像挑选和放置这样的大动作。以图 1 中打开调料杯盖为例:杯子初始竖直放置在桌面,右侧夹爪需要先将杯子放倒,再推送至左侧张开的夹爪内;然后左侧的夹爪轻轻合上,将杯子从桌上抬起。接着,右手一根手指从下方靠近杯子,撬开杯盖。每一步都需要高精度、细腻的手眼协调和丰富的接触。误差的毫米级就会导致任务失败。
2026-04-27 18:20:07
416
原创 具身智能数据集格式
HDF5 是一种层次化的数据格式,可以像文件夹一样将图像、本体感受(Proprioception)、深度信息和机械臂动作序列打包在同一个文件中。适用模型/框架:ACT。
2026-04-23 20:13:12
61
1
原创 具身智能论文精读(二):RoboTwin 2.0
基于仿真的数据合成,现已成为提升真实世界机器人操作能力的强大技术范式。然而现有合成数据集,依旧无法支撑鲁棒的双臂机器人操作,根源来自两大挑战:1.缺乏高效且可扩展的数据生成方法用于新任务。2.过于简化的模拟环境,未能捕捉真实世界的复杂性。我们提出了RoboTwin 2.0,一个支持自动化,大规模生成多样和真实数据,并且能够去配套统一的双臂操作的测评标准的可扩展仿真框架。我们首先构建了RoboTwin-OD,一个包含731个实例、涵盖147个类别的大型物体库,每个实例都标注了语义和操作相关的标签。
2026-04-22 17:37:21
512
原创 具身智能论文精读(一):Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots
该结果表明,仅使用窄域数据微调大预训练模型,不足以得到可在真实野外场景部署的机器人策略。因此,采集多样化的开放式真实场景数据,对于模型适配全新环境与未知物体、实现有效泛化依然至关重要。
2026-04-20 20:58:01
472
原创 transform基础练习(从细节里面理解)
线性层和 Embedding 层初始化为正态分布torch.nn.init.normal_(module.weight, mean=0.0, std=0.02) # 均值0,标准差0.02if module.bias is not None: # 仅当有偏置时初始化(lm_head无偏置,不会执行)torch.nn.init.zeros_(module.bias) # 偏置初始化为0。
2026-01-24 21:33:38
731
原创 论文翻译:TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based
基于大视觉语言模型(LVLM)的技术最新进展,催生了多种技术范式下的大视觉语言模型驱动式图形用户界面(GUI)智能体。以 CogAgent 与 SeeClick 为代表的基于训练的技术方案,因依赖特定数据集开展训练,存在跨数据集与跨平台泛化能力薄弱的问题。:译为跨数据集与跨平台泛化能力)以 GPT-4V 为代表的通用型大视觉语言模型(LVLM),采用标记集合(Set-of-Marks, SoM)技术实现动作锚定;
2026-01-18 23:04:23
676
原创 深度学习中稀疏专家模型研究综述 A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING
稀疏模型的构建通常以稠密模型为基础,然后按。
2026-01-09 21:54:10
1047
原创 Language Models are Unsupervised Multitask Learners(翻译)
借助大规模数据集、高容量模型与监督学习的组合方式,机器学习系统如今在其受训任务上的表现(平均来看)已十分出色(Krizhevsky 等人,2012;Sutskever 等人,2014;Amodei 等人,2016)。然而,这类系统鲁棒性较差,对数据分布的细微变化(Recht 等人,2018)以及任务设定的微调均十分敏感(Kirkpatrick 等人,2017)。当前的系统更适合被定义为 “专精型专家”,而非 “全能型通才”。
2026-01-08 19:51:19
1011
原创 Transformer 可视化详解 —— 不止解析工作原理,更揭秘卓越性能背后的原因(四)
查询向量与键向量的点积运算,会计算出每一对单词之间的关联程度。随后,该关联程度会被当作一个 “因子”,用于对所有值向量对应的单词进行加权求和。这个加权求和的结果,就是注意力模块输出的注意力分数。Transformer 会通过学习词嵌入等参数,让语义相关的单词对应的向量具备更高的匹配度。这也是模型引入三个全连接层、并为查询、键、值分别生成输入序列的三个不同版本的原因之一。这一设计为注意力模块增加了更多可学习的参数,使其能够通过调整这些参数,优化词向量的生成过程。
2026-01-07 23:44:00
1068
原创 Transformer 可视化详解(第二部分):工作原理分步拆解
这是我的的第二篇。在第一篇中,我们讲解了 Transformer 的功能作用、应用场景、宏观架构设计,以及它相比其他模型的核心优势。在本文中,我们将深入探究:译为,详细解析其具体工作机制。我们会了解数据如何以在系统中流转(:译为),并搞懂每一个阶段所执行的运算过程。下面是本系列往期及后续文章的:译为。我贯穿始终的目标,不仅是让大家弄明白事物 “如何运作”,更要搞清楚它 “为何要如此运作”。
2026-01-03 23:00:36
1245
原创 常用的激活函数
缺点:计算复杂度高,网络结构不支持RNN/LSTM(时序数据的自归一化条件不满足)兼具 “梯度平滑、无死亡神经元、自适应特征权重” 三大优势。缺点:若有些神经元始终小于0,会导致其始终无法更新。缺点:计算复杂度高,指数溢出风险。为可学习参数,通过反向传播更新。缺点:未完全解决梯度消失问题。缺点:超参数 α 需手动调优。输出范围[-∞,+∞]输出范围为[0,1]输出范围[-1,1]输出范围[0,+∞]
2025-12-09 21:27:14
216
原创 大话机器学习-1.神经网络
神经网络是一层一层组织起来的一个层状结构。简单来说,就是由输入层,隐藏层,输出层组成。用于接受数据,节点数等于输入特征的维度。也就是神经网络进行思考的地方。就是产生预测结果。神经网络最重要的一个步骤就是学习,那么他是如何学习呢?实质上就是重复“进行前向传播计算损失函数进行反向传播进行更新权重”,从而重复“反向传播”从而的得到最优参数。
2025-12-09 15:30:11
355
原创 一些ai研究方向
使用数学规划、整数规划、混合整数线性规划(MILP)等,追求最优解。如合同网协议(Contract Net Protocol, CNP)、博弈论方法,常用于分布式、异构系统。模仿生物群集行为,如粒子群优化(PSO)、蚁群算法(ACO)等,常用于大规模系统。
2025-11-17 21:45:06
783
原创 非线性动力学特征
在混沌理论的诸多工具中,lyapunov指数是衡量动力系统行为的关键指标。Lyapunov 指数是空间相邻轨迹的平均指数发散率的数值特征。
2025-11-10 19:13:48
205
原创 数字信号处理3——小波变换
过滤细节分量中的噪声(噪声对应的系数幅值小,设为 0),保留有用信号的高频分量(如突变、峰值)。特征提取(捕捉局部特征)
2025-11-10 10:47:22
107
量子计算与量子信息中的量子算法、量子比特及量子模拟应用
2025-11-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅