自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(569)
  • 资源 (37)
  • 收藏
  • 关注

原创 人形机器人最难的不是走路,而是手脚并用, TeleAI提出OASIS实现仿真数据和模型闭环

把行走、平衡、双臂操作和环境接触统一起来,让全身移动操作的数据生产走向可规模化在固定机械臂上,让夹爪把杯子放进盒子,难点大多集中在手臂和末端执行器。换成人形机器人,任务就完全不同了:**它要先走到桌边,持续调整脚步和重心,再转身、弯腰、伸手、接触物体,同时确保自己不摔倒。**手在干活,腿在走路,躯干在平衡,机器人的第一人称视角还在不断变化。这种把 locomotion 与 manipulation 紧密耦合的能力,被称为。

2026-06-25 10:29:04 101

原创 看完HumanScale后,发现第一视角人类视频可能比真实机器人数据更适合具身预训练。

预训练阶段真正稀缺的到底是动作对齐,还是开放世界覆盖。答案很鲜明。对于 embodied foundation model,尤其是以 WAM 为代表、希望先学世界表示再做机器人适配的路线,第一视角人类视频并不是次优替代,它很可能更合适用来进行预训练。在笔者看来,这篇工作最亮眼的地方有两点。第一,它把“coverage 和 alignment 分工不同”这件事从经验判断推进到了定量对比上,而且结论相当干脆:真实机器人数据在 Seen 上还有竞争力,一旦进入 Unseen,第一视角预训练的优势就会迅速拉开。

2026-06-24 17:24:23 275

原创 给 VLA 补上「手感」:徐丹飞和李飞飞,想让机器人学会「摸着干活」

闭着眼在口袋里摸出钥匙、戴着厚手套把线穿进针眼、捏起一块豆腐又不把它捏碎——这些事你不用看,靠手就能完成。换成今天最强的 VLA 机器人,大概率要翻车。原因很简单:VLA 这套范式,本质是「看着干活」。它把视觉、语言、动作接到一个统一接口里,这两年语义理解和泛化突飞猛进——你说「把红色的杯子递给我」,它能听懂、能找到、能递过去。但任务一旦进入「接触」环节——拧、插、捏、抹——光靠眼睛就不够了。眼睛能看到手「在哪」,却感觉不到手「使了多大劲、有没有打滑」。这块缺的拼图,就是触觉。触觉重要,早就是共识。这些年

2026-06-24 17:13:25 327

原创 WM的定义很混乱,万字长文剖析世界模型的发展脉络和分类。

世界模型是整个人工智能领域中定义最混乱的词之一。让我们回到世界模型这个概念的开始,彼时一副经典的图像描绘了世界模型这一概念的雏形。尽管不同阶段、不同路线所展示出的具体方法各异,我们可以从中提炼出两个世界模型的基本要素:对世界的建模、在想象世界中交互。而目前世界模型的定义混乱,很大程度上来源于对这两个基本要素的理解不统一和概念混淆。由于在发展初期缺乏一个足够清晰的定义,后续不少工作都重新自己定义了世界模型,而又互相存在一定分歧(同时很多工作为了 fancy 也声称自己是世界模型),因此直到现在也缺乏一个公认的

2026-06-18 17:21:45 202

原创 高继扬最新的判断:具身大概率不会出现「GPT 时刻」

台上是一套体系化的战略——整机 + 智能闭环、三重跃迁、百万小时数据、开放生态;台下是一种「结硬寨、务实干」的冷静——别太把评测当真,做好自己的事、坚持真机,做好成本计算、商业上第一阶段不追第一。这两层合起来,也回答了我们开篇那个问题:站在头部的视角往前看,具身行业正在往哪走?星海图给出的答案很明确——它正从「拼产品、拼单点」走向「拼生态」,从「卖本体」走向「卖生产力」;而它自己押的,恰恰是这条路。

2026-06-18 17:17:50 193

原创 让物理世界的数据飞轮转起来!这家公司做的事情,是全具身领域的痛点(附岗位)

广州云蝶科技股份有限公司(简称“云蝶科技”)成立于2019年,是广东省本土成长、重点培育的数据服务、垂类大模型和具身智能企业,提供覆盖多模态数据采集、AI垂类大模型、智能体、具身智能到智能硬件的全栈AI产品与解决方案。熟悉OpenVLA、RT-X/RT-2、T0/OpenPI、ACT、 Diffusion Policy、LeRobot、RLDS/Open X-Embodiment者优先。熟悉Movelt、Nav2、Gazebo、MuJoCo、Isaac Sim、PID、MPC、阻抗控制、遥操作系统者优先。

2026-06-09 19:00:56 204

原创 为机器人原生,时空一体世界动作模型问世!复旦系开辟具身AGI最优解

当前,通用人工智能的竞争正从虚拟数字空间全面迈向真实物理世界,已然成为 AGI 赛道的核心决胜高地。当前行业主流的 VLA 视觉语言动作模型、通用世界模型、视频推演方案,普遍存在空间感知精度不足、物理逻辑约束缺失、长时序规划能力薄弱、真机落地鲁棒性差等一系列痛点,无法支撑机器人实现真正的自主感知、自主推理、自主决策与稳定交互。在物理 AI 产业快速迭代的关键节点,深耕世界动作模型底层技术五年的,正式推出作为。

2026-06-09 18:31:26 232

原创 CVPR 2026丨RoboAgent以五项基础能力突破具身规划瓶颈

具身智能这两年的发展,很大程度上来自大模型能力向机器人系统迁移。从π0、π0.5、π0.7,再到后面的强化学习、世界模型、世界动作模型。大脑能力的发展速度确实很快,但越接近人类真实的日常需求,我们就越会发现,具身智能的突破还有很长的路要走。机器人能力并不会因为接入一个更强的 VLM 就自然形成。视觉理解、语言推理和动作生成之间,还缺少一套稳定的过程组织方式。长程任务的难点,往往出现在中间环节。

2026-06-09 17:25:14 280

原创 具身头部公司在集体“练小号”......

2026年,具身智能赛道的核心叙事正在发生实质性的偏移。不再是纯粹的“卷本体、刷榜单、拼自由度”,行业步入深水区后,头部玩家们不约而同地开启了一场组织架构层面的“细胞分裂”。这绝非简单的业务扩张,而是行业在一级市场流动性收紧、商业化交付压力陡增的背景下,进行的一场战略重组。

2026-06-09 16:56:51 324

原创 为什么人类视频很多,人形机器人却仍然学不会操作?SUGAR给出了答案

SUGAR 的真正价值,并不只是提升了几个locomanip任务的成功率。人形机器人究竟应该如何利用人类数据?昂贵但高质量的机器人数据直接模仿 imperfect human motion但两者都存在明显限制。不要盲目相信视频,也不要放弃视频。先从人类视频中提取任务先验,再通过物理 refinement,把它转化成真正可执行的机器人技能。从更宏观的角度看,未来 humanoid learning 的关键,也许并不仅仅是更大的模型、更强的控制器。

2026-06-09 16:45:21 202

原创 一天一个价,最高420亿!再看70家具身公司的最新估值~

过去一个多月,具身智能赛道的融资节奏依然紧密。智元生态内的等公司刚刚完成新一轮融资,估值均达70亿元人民币;博世与银河通用设立的合资公司,迅速拿下了近3亿元Pre-A轮融资,加速工业具身智能规模化落地;近完成5亿元的Pre-A轮融资用于大规模量产、销售网络建设;完成新一轮融资,以20亿美元估值引领全球具身数据基础设施…这些实打实的数字说明了一个趋势:**资本正在加速向具备核心技术壁垒和场景落地能力的玩家集中。**在这一轮投融资热潮下,全行业的估值水位和排位格局究竟发生了怎样的变化?

2026-06-09 16:18:26 246

原创 半个智驾圈集体“出逃”去搞具身了......

注:核心团队部分仅整理了在智驾领域的技术人才,更多核心团队信息可在知识库中查看。

2026-05-29 17:04:24 220

原创 WEM:把“世界”和“自我”分开,具身世界模型才能走得更远

最近,视频世界模型正在从“生成好看的视频”,走向“预测机器人在物理世界中的未来”。从机器人数据生成,到策略评估,再到长时序任务想象,大家都希望模型能够提前“想象”机器人接下来会看到什么、会怎样行动、世界会怎样变化。但一进入具身场景,尤其是长时序任务,问题就不再只是画面质量。机器人需要一边导航、一边操作、一边根据连续指令改变环境。模型既要记住房间布局、物体位置、场景结构,又要预测机器人手臂、被操作物体和接触关系的变化。

2026-05-29 16:59:04 348

原创 成功、失败和人工干预,是怎样被持续转化为策略提升的?一套完整的数据飞轮案例分析

从离线强化学习到在线强化学习的范式转变,数据飞轮高效轮转在这其中发挥着异常重要的作用。但想让这个数据飞轮转得更快、更稳、更有效率,从算法到数据,从真机到数据池,每一个环节的设计都非常关键。2026年以来,**上海创智学院联合智元机器人相继推出SOP和LWD两项工作,**是具身领域如何构造切实可用的数据飞轮,让众多本体在真实场景下“越工作越强”的代表性和开创性工作。

2026-05-29 16:48:29 403

原创 10条演示数据,超越pi0.5近24%!PriorVLA正在回答如何低成本完成高效后训练

近日,Neuracore AI CEO、RLBench 一作、前Dyson机器人技术负责人 Stephen James在X平台上发表了一个帖子。主要观点是,“全量微调VLA正在摧毁你花预训练预算建立的那些先验知识”,同时也引出了一个名叫(来自原力灵机和中科院自动化所),并剖析方法是如何轻成本微调,同时保留了先验知识。这也引出了,行业对VLA的微调任务长期以来的态度和痛点。把“预训练只是更聪明的随机初始化”来对待,是许多具身团队长期以来的处理方式。

2026-05-23 16:58:00 322

原创 徐丹飞,一亿小时人类数据 “可买” 机器人 GPT-3 时刻

机器人是否真的需要一亿小时数据,今天还很难给出确定答案。但这句话背后可以折射出一个提醒:如果具身智能希望复制大模型时代的能力跃迁,就必须面对数据规模、数据质量和数据组织方式这三个问题。过去几年,行业已经证明了真机数据的价值,也证明了遥操作路线的有效性。但这条路径成本高、扩展慢、强依赖本体,很难单独支撑通用机器人模型走向下一阶段。human data 路线提供了另一种可能。从人类在真实世界中的动作痕迹里,提取机器人可以使用的物理先验,再通过跨域对齐、机器人数据共训和真实评测,把这些先验转化成可执行能力。

2026-05-23 16:15:40 481

原创 成功、失败和人工干预,是怎样被持续转化为策略提升的?一套完整的数据飞轮案例分析

真实机器人上的强化学习确实很容易出现不稳定,尤其是在多任务、长任务和大模型策略的场景下。LWD 中重点防范的典型问题包括:critic 过估计、策略更新过大导致原有能力退化、长任务 sparse reward 传播太慢,以及在线数据中混入人类干预后造成训练目标不一致。系统主要通过几类设计来解决这些问题。第一,使用 DIVL,也就是 distributional value learning,而不是只学习一个 scalar value。

2026-05-23 15:06:37 387

原创 WEM:把“世界”和“自我”分开,具身世界模型才能走得更远

最近,视频世界模型正在从“生成好看的视频”,走向“预测机器人在物理世界中的未来”。从机器人数据生成,到策略评估,再到长时序任务想象,大家都希望模型能够提前“想象”机器人接下来会看到什么、会怎样行动、世界会怎样变化。但一进入具身场景,尤其是长时序任务,问题就不再只是画面质量。机器人需要一边导航、一边操作、一边根据连续指令改变环境。模型既要记住房间布局、物体位置、场景结构,又要预测机器人手臂、被操作物体和接触关系的变化。

2026-05-23 14:44:52 392

原创 半个智驾圈集体“出逃”去搞具身了......

注:核心团队部分仅整理了在智驾领域的技术人才,更多核心团队信息可在知识库中查看。

2026-05-23 14:40:54 421

原创 RoboAlign-R1:对齐任务与物理规则!从 “画面生成” 到 “决策可用”

用蒸馏多模态奖励解决训练错位,让模型以任务与物理为优化目标;用在线迭代蒸馏保证奖励精准,避免模型作弊与分布偏移;用滑动窗口重编码解决长时序漂移,以极低开销实现稳定预测。三者结合,构成了可落地、高性能、高效率的机器人世界模型训练与推理体系。RoboAlign-R1 面向机器人视频世界模型,提出了一套训练对齐 + 推理稳定的完整方案,解决了当前领域最核心的痛点:提出蒸馏多模态奖励对齐框架,让世界模型从 “像素拟合” 升级为 “任务与物理对齐”,综合性能提升 10.1%;构建。

2026-05-15 18:01:42 395

原创 为什么预训练再好的VLA,在新任务上普通SFT 并不好用?CapVector给出了原因和方案

CapVector 本质上在做一件事:把 finetuning 过程中隐式学到的“能力”,从训练过程本身解耦出来。于是auxiliary finetuning 不再只是训练技巧。而变成一种 capability extraction process。这可能意味着:未来很多复杂 finetuning 方法,最终都能被压缩成一个 capability vector。然后像插件一样,直接 merge 进 foundation model。

2026-05-15 18:00:04 371

原创 这是一篇极简的具身智能全链路图示,自底向上的剖析

正如开头所说,本文更多地是为初学者提供对整条链路的抽象,给出一张“知识地图”,很多具体环节的实现细节并没有深入介绍。最后,汇总一下各个层级所涉及到的岗位。传感器:常见岗位包括传感器工程师、硬件工程师、电子工程师、嵌入式工程师、标定工程师、测试工程师等。他们主要负责相机、深度相机、LiDAR、IMU、编码器、力/力矩传感器、触觉传感器等硬件的选型、集成、驱动、同步、标定和可靠性测试。这个方向更靠近硬件和系统集成,需要理解传感器原理、通信接口、时间同步、噪声特性和真实部署中的稳定性问题。

2026-05-15 17:50:06 436

原创 最快125FPS实时推理!深度解读最近爆火的Realtime-VLA FLASH

在具身智能的研究前沿,扩散式视觉-语言-动作模型(Diffusion-based VLAs)因其在连续动作空间中出色的多模态分布建模能力,已成为复杂机器人操作任务的主流范式。然而,高昂的完整推理延迟导致的“动作滞后”问题,严重制约了此类模型在真实、动态场景中的部署。针对具身智能的实时性(Real-time)挑战,在 V1 中,团队聚焦底层系统与算子优化,通过消除推理计算冗余,使百亿参数大模型在单张 RTX 4090 上达到了 30fps 的执行速度;

2026-05-15 17:30:18 462

原创 具身智能工业场景落地迸发,谁抓住了红利期?

这一年,各大机器人公司密集进场,部署工业场景。但这一轮浪潮与此前的试点逻辑截然不同,它不再止步于展示技术可能性,而是将机器人真正嵌入核心生产流程,力求以高超的效率和准确性替代人力,成为常态化产线的有机组成。近日,银河通用机器人与全球汽车零部件领军企业、年营收超千亿的延锋国际达成战略合作,直指汽车饰件制造中传统自动化难以攻克的痛点场景,完成汽车核心零部件制造全流程的具身智能改造。

2026-04-28 09:54:35 402

原创 全网最大、最全的开源社区——『具身智能之心-开源知识库社区』。

里面汇总了具身智能方向的主流技术、产业应用、学术研究、具身企业,还有大家比较关注的行业政策和投融资信息,希望为具身智能行业的朋友提供一个体系化的行业信息枢纽。此外,社区活动部分还邀请了具身智能领域的高校老师、在读博硕士、一线从业者通过直播分享他们的最新研究成果。您可以把它当成一本具身智能“工具书”,日常打开看看最新动态。如果觉得这个开源社区有价值,也欢迎推荐给团队小伙伴或身边的同行!“具身智能之心”近期上线了全网最大、最全的开源社区——『具身智能之心-开源知识库社区』。

2026-04-24 14:38:53 89

原创 重磅!physical intelligence推出π0.7:像搭积木一样,把从不同任务里学到的技能重新组合

今天,pi团队在其博客中正式官宣π0.7,又出新的技能了!博客链接:https://www.pi.website/blog/pi07paper链接:https://www.pi.website/download/pi07.pdfpi团队训练了一个名为的新模型,它在通用性上实现了一个质的飞跃。这是一个通用模型,它不仅能像那些经过专门微调的“偏科生”一样,出色地完成各种灵巧操作任务,更重要的是,π0.7能听懂新的语言指令,甚至完成训练数据里从未出现过的任务。在实验中,π0.7 展现出了。

2026-04-17 16:55:46 776

原创 具身智能的“军火供应商”,数据相关公司最新估值一览!

上次为大家复盘了26年国内具身公司的最新估值,今天在数据生产的细分赛道上再为大家盘点下相关公司的估值。其中一些公司对外公布估值,另外一些公司则暂未公布,本次汇总我们已经发布到具身智能之心知识星球内。

2026-04-14 18:58:38 415

原创 2026人形机器人全身控制全景:从 VLA 割裂到全域协同

LeVERB 搭好了骨架(分层架构);SONIC 筑牢了底盘(通用运动基础);WholeBodyVLA 画出了蓝图(全域协同形态);PhysiFlow 打通了血脉(高频稳定执行);Ψ0\Psi_0Ψ0​降低了门槛(数据效率革命)。这五大工作,共同把人形机器人从 “执行预设指令的机器”,推向了 “理解意图、全域协同的类人智能体”。统一潜空间+分层高频控制+视频物理先验+大空间全身协同。

2026-04-14 18:09:12 573

原创 CVPR 2026 | 提速100倍!首个端到端Real-to-Sim物体级感知与重建框架

UniPR 通过创新的端到端架构与位姿感知形状表示(PASR),成功打破了传统三维感知与重建流水线在推理效率与真实物理比例上的双重瓶颈。我们期待这一开源框架与 LVS6D 数据集能为具身智能领域的精准 Real-to-Sim 转移提供可靠的基座支持,进一步推动机器人在真实物理世界中的复杂交互与灵巧操作。本研究由南洋理工大学(NTU)王子为(Ziwei Wang)老师团队与腾讯 Robotics X 实验室联合发布。

2026-04-14 17:31:13 483

原创 26年五十多家具身公司,最新估值......

26年Q1季度已经过去,具身公司的融资推进越来越快,不乏有新的公司冲击IPO。今天『』为大家盘点下50多家相关企业的最新估值,本次主要重点关注硬件、大脑、数据相关方向,阶段内的公司不做排行。注:各公司成立时间和融资阶段差异大,估值高低与技术、商业化水平不能简单划等号。

2026-04-14 16:58:13 570

原创 CVPR 2026 | 智源&清华推出ORV,借助Occupancy,在视频上做遥操

ORV 提出了一个突破性的以4D Occupancy为中心的解耦架构,成功打破了稀疏控制与密集视觉之间的表征壁垒。其卓越的视觉保真度、跨视角几何一致性以及对下游策略学习的显著增益,为具身智能领域的仿真与生成模型研究提供了极具价值的新范式。未来,团队将继续探索结合在线4D占据预测技术,摆脱对离线数据的依赖,并引入更细粒度的全身关节动作表征,向着“超长视野(Long-horizon)复杂任务的实时闭环预测”这一终极目标迈进!

2026-04-14 16:42:52 575

原创 Generalist AI发布GEN-1!一脚踹开“精通物理任务”的大门,1小时数据,成功率达到99%

具身基础模型应当具备可靠性、快速执行能力,以及在意外情境中自我恢复的能力。使用“精通”一词,特指可靠性、速度与即兴智能三者的结合。尽管可靠性与速度较易量化衡量,但即兴智能恰恰是此前机器人领域最为缺失的关键能力。

2026-04-14 16:39:39 469

原创 当行业还在争论数采路线时,全视野的多模态高精度EgoCentric 方案已经跑出

2026年春节后,英伟达发布了新的成果Egoscale和DreamDojo,之后具身领域的聚光灯照到了EgoCentric方案上。第一人称的方案让数据采集难度逐渐变小,甚至说无感和自然,真实数据scaling再也不是一件折磨人的事情了。以前换个机器人数据就要重新采一遍,现在不需要了。即使换了不同人形机器人,采到的数据也能快速适配,更能独立于本体差异。更重要的是,基于该视角下的数据,大脑正在从单纯的规划与移动轨迹的学习,转向Human data的认知能力建立。

2026-04-14 16:30:20 576

原创 高精度与鲁棒无法兼得的问题解决了!北京人形推出Heracles:人形机器人通用控制器

Heracles 框架跳出 “纯跟踪” 与 “纯生成” 的二元对立,以状态条件扩散中间件重构人形机器人控制逻辑,让人形机器人在保持高精度任务执行能力的同时,获得接近人类的抗扰动与摔倒恢复能力。它不仅是控制算法的创新,更为人形机器人从实验室走向家庭服务、工业作业、应急救援等真实场景,提供了可工程化、可规模化落地的通用控制底层方案。

2026-04-02 18:05:38 466

原创 再获20亿融资,估值突破200亿!靠VLA和WAM打造通用具身大脑~

同时,沿着真实数据金字塔,星海图领先于行业布局涵盖 UMI 数据与人类第一视角(Egocentric)数据的无本体数据方案布局,构筑起稳固的具身智能数据金字塔。目前,星海图的数据体系已深度赋能英伟达 EgoScale、蚂蚁灵波 Lingbot-VLA等全球顶级具身大模型,成为行业不可或缺的底层基础设施。

2026-04-02 17:44:29 491

原创 给一张照片,用手比划就能生成抓杯子、开盒子的第一人称视频!Hand2World的破局之路

从 Genie 3 到 LingBot-World,世界模型正成为 AI 领域最热的方向之一。一个自然的问题是:如何让用户用最直觉的方式————来驱动世界模型中的交互?我们提出了:给一张照片,对着空气比划几下,AI 就能生成手伸进场景里抓杯子、翻书、开盒子的逼真第一人称视频,物体也会产生对应的物理响应——还能自回归地一直生成下去,长视频也保持稳定。

2026-04-02 17:32:41 432

原创 CVPR‘26 | 1条顶50条!北大董豪团队联合智元提出Real2Edit2Real,提升具身数据效率

Real2Edit2Real致力于绕过复杂的数字孪生与物理仿真,直接接入数采管线,将统一的 3D 控制接口的精确性与可控视频生成模型的真实性相结合,让少量的真机数据也能迸发出规模化的效果,为解决具身智能的数据采集难题提供了一条高效捷径。

2026-03-30 16:38:19 63

原创 斯坦福联合 Physical Intelligence推出AirVLA!让桌面机械臂 VLA 模型学会空中抓取与导航

AirVLA 完成了机械臂 VLA→无人机的首次系统性迁移验证,证明"预训练 VLA+物理感知引导+3D 合成数据"是破解无人机欠驱动、强动态、数据稀缺的最优路径。它没有重新造一个飞行模型,而是站在 VLA 基础模型的肩膀上,用最小代价让"地面机械臂技能"飞上天空,为语言指令无人机、高空作业、应急救援抓取等真实应用打开了大门,也为跨具身迁移提供了"保留表征、适配动力学"的标准范式。

2026-03-30 16:35:41 129

原创 具身领域的真机评测基准都有哪些?

是指用于评估具身智能系统(如机器人、智能代理等)在真实或模拟物理环境中执行任务的能力、性能和质量的一套标准化测试框架和指标体系。近年来,业内已经基本形成了真机和仿真两套方案,其中真机评测方案因其能够触达真实场景,被业内团队广泛关注。今天为大家盘点一下具身智能领域都有哪些真机评测基准。以下评测基准均已收录至『具身智能之心-开源知识库社区』“具身评测基准”版块的子文档“真机评测基准”部分,更多内容可至开源知识库社区查看~

2026-03-30 16:31:26 207

原创 从酒店到客厅,优理奇机器人开始啃家居场景这块最难的骨头

春晚后,具身领域发生了一个很大的转变:开始关注落地和场景了。宇树在春晚舞台把“机器人身体能力天花板”推到了大众面前,智元则慢慢把机器人往明确的 B 端场景里落,Sharpa 在补“手和触觉”这块关键技术,国外的Figure AI 和physcial intelligence也在不断让真实部署成为可能。这一次,也是行业几年的发展和不断摸索积累的成果。再把这些内容结合到一起,可以发现一个很明显的现象:相比于demo下的“全能选手”,行业正在谋求具身为各类生产力带来新的增长。

2026-03-30 16:28:05 162

tensorflow训练CIFAR-10数据集源代码

tensorflow训练CIFAR-10源代码,可以直接运行使用,初学者的参考资料

2018-05-09

工业零件缺陷图像

工业缺陷零件图像,包括凸粉、漏底、碰凹、擦花四种。

2018-09-12

Mask RCNN源代码

Mask RCNN源代码,附有数据集,可以直接在windows中运行

2018-07-13

json数据的转换工具

用来转换.json文件,不用手动的去操作,只需放在json文件目录下,运行即可

2018-07-13

编译好的assimp

windows下编译好的assimp库,可以和vs配置使用,亲测可用

2018-04-23

CGAN源代码

CGAN条件生成式对抗网络源代码,可以直接运行,不错的参考资料

2018-06-02

深度学习艺术风格迁移keras源代码

艺术风格迁移源代码,基于keras框架,并包含下载好的VGG19模型,可以直接运行使用,初学者不错的学习资源

2018-05-05

Deep Dream源代码

谷歌Deep Dream源代码,可以直接运行,不错的参考资料

2018-06-02

工件裂纹图像

工件的裂纹图像,工业数据集,不错的测试资源,可结合物体检测使用

2018-10-28

SSD物体检测源代码

SSD物体检测源代码,基于谷歌object detection api,可以直接运行,不需要复杂的配置过程

2018-05-30

yolo3物体检测源代码

基于keras和tensorflow的物体检测python源代码,可以直接使用!

2018-05-09

Faster RCNN源代码

基于python的faster rcnn源代码,包含训练和测试文件,可以修改应用到自己的工程中,不错的参考资料

2018-05-24

windows下编译好的boost库

windows下编译好的boost1.57版本库,可以放心配置使用。

2018-04-23

SSD缺陷检测裂纹源代码

基于SSD模型的裂纹检测,可以完成工业零件的缺陷识别定位,也可以扩展到其它应用场景。

2018-10-28

深度学习实现零件缺陷检测源代码

结合VGG和残差网络实现工业零件的缺陷检测,基于keras和tensorflow可以直接运行使用

2018-09-12

机器学习实战数据

机器学习实战中第二章数据,包含mnist数据集和约会数据,仅供参考

2018-06-22

视觉测量pdf 张广军版

张广军版视觉测量pdf 高清扫描(网上下载不到的资源)

2018-05-05

Mastering OpenCV with Practical Computer Vision Projects

计算机视觉进阶经典,国外畅销教材Mastering OpenCV with Practical Computer Vision Projects

2018-07-02

FreeImage库

下载好的FreeImage库,支持多种图像格式的操作,包括png、tiff等。

2018-04-23

opencv中的dnn模块

opencv中的dnn模块,有detection案例,以及pb文件到pbtxt的转换代码

2018-12-28

语义分割源代码

基于keras的语义分割源代码,包括segnet、U-Net、FCN,文件夹中包含训练和测试数据,以及训练好的模型。

2018-12-02

yolov3源代码

基于keras的yolov3物体检测源码,可以直接运行使用,用于物体的定位识别。

2018-12-03

yolov3.weights

yolov3.weights文件,yolov3的训练参数,用于预训练。

2018-12-03

pcl点云模型

PCL点云模型,包含常见的几种动物模型,.pcd和.ply格式

2018-12-18

近年来收藏的.pcd模型文件,pcl学习处理使用

pcd模型文件,包括整幅场景图像和单个物体的点云图像。

2018-12-20

深度强化学习DQN训练Flappy bird源代码

深度强化学习DQN训练Flappy Bird源代码,可以直接运行FlappyBirdDQN.py使用。

2018-11-10

meshlab.zip

Meshlab官方文档,MeshLab 是一个开源、可移植和可扩展的三维几何处理系统,主要用于交互处理和非结构化编辑三维三角形网格。该系统发布于2005年年底,旨在提供一整套三维扫描、 编辑、 清洗、 拼合、 检查、 呈现和转换网格数据的工具。本教程对Meshlab软件进行了详细的介绍,方便快速上手。

2020-06-05

yolov3.h5,物体检测模型

yolov3.h5是预训练好的yolo模型,可供测试和预训练使用。

2018-12-03

mscoco_labels.names

mscoco_labels.names是coco数据集的标签信息,可以根据自己类别进行修改。

2018-12-29

synset_words.txt

ImageNet中分类的类别数目,包括各种相近的类别。

2018-12-26

bvlc_googlenet.prototxt

bvlc_googlenet.caffemodel的结构文件,配合model一起使用

2018-12-26

bvlc_googlenet.caffemodel

深度学习googleNet.caffemodel,配合opencv一起使用,完成分类任务。

2018-12-26

SSD caffe模型

基于caffe训练的SSD300x300物体检测模型,结合opencv一起使用。

2018-12-26

mask_rcnn .pb和.pbtxt文件

mask rcnn的.pb模型文件和.pbtxt文件,还有mask rcnn对应的颜色信息和标签信息

2018-12-27

read_pbtxt_file.py

read_pbtxt_file.py文件,从json转换到.record文件的代码

2019-01-22

美团机器学习实践pdf高清扫描

美团机器学习实践pdf扫面版,内容包括特征选择,工程搭建等一系列干货。

2019-04-03

百面机器学习+剑指offer第二版pdf

百面机器学习和剑指offer第二版pdf,近百个机器学习和深度学习知识点总结,面试必备。

2019-02-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除