ICRA2023个人回顾,涉及机械臂抓取、人形机器人的一些思考等

https://zhuanlan.zhihu.com/p/654100232 

作者:知乎@十一 

编辑:3DCV

内容仅代表个人观点, 有不同观点希望大佬们赐教~

读研靠着大佬们的提携, 最终还是做了些东西. 当然了质量非常一般, 效果全靠挑选指标, 结论只对得起良心. 因此最终得出自己并不适合读博的结论, 离开了学校, 想去看看机械臂的真实部署场景到底如何, 避免每次自己写Introduction时候跨不过去的"讲故事"的坎. 不过无论如何毕业前还是有幸去伦敦参加了一次ICRA, 感觉还是收获满满, 至少重新鼓起勇气继续去探索更广大的世界了. 特地记录一下, 与大家共勉!

1. 人形机器人

首先是自己一直关注的人形机器人和移动操作方向, 当初就是因为这些东西入坑的, 纯纯只是希望可以不用被要求做家务了. 不过现在一点点觉得这个幻想太遥远了, 里面都是故事和融资, 要做到自己曾经幻想的机器人走入千家万户还是太遥远了. 不过目前听到了两种还算是勉强能圆过去说法, 虽然有一定道理, 可个人认为还是比较牵强. 某第一性车厂方向的说法是: 尽管已经那么大量的汽车生产, 可自动化率依然上不去, 产线还是需要工人. 因此从"第一性"逻辑出发, 那么还是需要造一些与产线上工人一样的人形机器人才行. 另外一种说法是源自国内的机器人大基金, 说人形机器人的优势就在于不用改造设备本身. 像传统的坦克, 轮船, 飞机等等, 让他们无人化战斗/工作需要加入各种传感器, 但是如果有了标准的人形机器人, 那么人形机器人这种"标准品"就可以用于各种设备的"改造升级", 这种标准品的大批量生产会比改造费更便宜, 因此值得做. 都是大佬跟我说的, 只能说比当初自己想着让人形机器人端茶送水的理由高级多了, 但是能不能因此而真的把这玩意弄出来, 就真不好说了.

目光转回到ICRA上, 看看现在的这些"电机串电机"的铁疙瘩到底到什么水平了.

90abed471175874be5d72e84f25278c8.png
形形色色的人形机器人

这里面移动底座+机械臂的组合故事已经讲了很久了(1,2,3,5,7), 跟最早期柳树车库的PR2基本上是相当的, 最多就改一改臂型, 负载, 夹爪, 成本. 比如(5)里面说全部用3D打印件, 希望全套做下来3000美金, (7)里面的极简设计和夹爪的新型设计, 还蛮适合扫地机上装的; 另外人形结构(4,6,8)的就是更长久的故事了, 从ASIMO演化过来. 我去过的有人形机器人的实验室, 里面的人形机器人基本上都是在吃灰, 因为这玩意死贵又贼容易坏, demo始终就是拿个杯子同时走个路的. ShadowHand也是, 见过三四个ShadowHand, 就没见过小拇指是好的hhh. 当然这次能看到石黑浩用一个机器人去进行演讲, 这个好像还有那么点意思...

37b30c8f41acfd3e0894b09af8379f49.png
用过的高级设备

实习和读研的时候都在摸ShadowHand实物, 读研有一个工作是在PR2末端装一个ShadowHand, 同时ShadowHand上面每个手指装一个Biotac触觉传感器, 这一套应该是我认知里非常高级的设备了. 可是放到自己面前的第二天(第一天肯定很激动), 就立刻会体会到那种"电机串电机的铁疙瘩"的无力感. 一来传感器和电机多了就巨容易坏, 标定也是这里面的一个大问题; 二来电机多了很难去做很好的planning, 动起来也很难多电机联动, 并不像真实的人(最近ETH狗子的步态开始真的像狗了); 三来即使如此高级的设备, 相比于一个普通人, 手臂还是动不快, 触觉传感器依然面积不够大, 重量依然非常高, 灵敏度依然低的可怜. 这些叠加到一起, 自己便开始一点点对人形机器人产生了疑惑和迷茫......当然, 具体为何人形机器人难, 一般只能用"谁做谁知道"的论调进行说明, 因此这里尽可能地展示一下遥操作中的复杂case, 希望能一定程度上说明. 相比于DARPA时候的全自主机器人, 现在的遥操作稍微好了些, 或者说至少能有一定程度上的"智能"了, 不过依然还是太遥远了...

顺嘴再提一下触觉传感器方向, 今年ICRA上触觉传感器非常多, 确实力控相比于视觉的发展还是慢了太多, 但是如果希望机器人能真的像人一般在非结构化场景中做点抓取和操作任务, 那么力控必然是需要的. 这次展会上从视觉, 电极, 磁感应甚至基于光子量子的触觉传感器都有, 不得不说还是非常有趣的; 当然了, 最有趣的是ShadowHand的展示效果, 他们引入了一些条纹, 按钮, 这让触觉传感器不再只是碰一碰看看电路板, 而是真的能看到应对不同场景的数据, 这展示真真可以学习.

2. 人机交互

其次是关于人机交互, 一直觉得现在很多学术界的机器人paper都太Demo了, 非常难做到人们的身边. 如果类比于计算机行业, 个人觉得机器人行业缺少了像键盘, 鼠标, 窗口界面这类标准化的东西, 这些东西并不涉及多么高端的技术, 但是却能让更多的人开始接触和使用计算机. 感觉只有能让更多人不断接触计算机, 有了市场化的需求, 才可以有后面像摩尔定律一般的不断迭代升级细分领域的发展模式. 同理机器人, 感觉始终还是要让更多的普通人先把机器人玩起来, 让广大公司能赚钱造血了, 才能去想更多花里胡哨的技术. 然而, 像协作臂弄了那么多年, 可想要教会一个刚进实验室的工科背景的研究生把UR跑起来, 示教器上弄个movel, socket上搞个servoj, 还是太难太难了. 从头学ROS也要求有基本的代码功底, linux功底, 这个门槛也至少是三个月起步. 因此这次去ICRA上也重点在关注各个机器人的交互逻辑.

305861b5f7e77a0c1229633c7aac133c.png
波士顿动力狗子的遥控器UI

首先是波士顿动力的遥控器UI, 里面的抓取有如同"Pick Up Ojbect, Open Door"这类稍微middle-level的指令, 而不像以前机器人抓取中的"Detect->Locate->Move->Close Gripper->Move"的控制链条; 感觉更多稳定的Middle level指令才是大语言模型能在上层做Planning的基础, 另外还有像Kinova的视觉图形化编程任务, 以及Kinova本身的一体化视觉. 一体化视觉曾经在学校并不在意, 感觉一条线内走线or外走线没啥区别, 可是在真实场景中, 发现往往是这根线是全局最不稳定的因素, 因此内走线还是非常必要的. (当然了大族机器人也有内走线产品, 欢迎来找我咨询hhh)

d966d53a01a930f00a08c4b3031244a8.png
Kinova视觉选项与一体化视觉

说到middle level的工作, 另外一个非常喜欢的工作是MIT的自适应Gripper, 他末端加了一些距离传感器可以围绕着物体进行自适应夹爪的距离控制, 感觉这种自适应又可以进一步的提升抓取的自适应性. 自己做抓取的其实也测试过一堆的抓取算法, 真实的感觉就是爪子大一点比啥算法都靠谱多了; 另外, 最近发现3D打印行业也起来了, 拓竹的打印机4000块钱做的那么好, 这种是不是也可能可以给机械臂做各种快换末端, 给家用机器人装上去, 做到一定程度上的硬件开源. 一个通用的夹爪解决所有事情给人感觉肯定是扯蛋, 但是用打印机做四五种末端, 解决四五个真实的问题, 那也许都算是一个非常不错的画面了. 等这个APP市场逐渐大起来之后, 也许机器人就能一点点到人们身边了呢? 硬件的门槛其实比软件更高, 只能希望大模型能简化画机械图的复杂度, 标准电路模块能简化供电的复杂度, 从而让普通人用起来.

1ea89c483127ae3c0296a1921d0ec492.png
MIT夹爪

还看到一些其他方向挺有意思的"人机交互", 像用强化学习研究怎么进行食物摆盘的, 靠不靠谱另说, 但是这些能把研究做到身边的项目, 还是挺有意思的. 以后制造业全转移到印度, 国内机械臂日子不好过的话, 自己做个厨子似乎也不错. 效率/指标的提升始终只是别人工作上的小修小补, 但是如果能挖出一个新坑让大家往里面折腾, 那肯定是更爽的事情, 就像曾经的大疆往无人机上放个摄像头, 让人们从此有了天上拍照的需求一般.

446f7f66dc1be7a56c7803ac10291403.png
强化学习用于食物摆盘

另外是之前读研给艺术类同学做外包的时候, 知道了像Grasshopper这类的软件, 其实感觉还是不错的. 发现艺术类同学的技术栈其实会比工科学生有更广的要求, 因此从这个方向去入手看看怎么弄一些人机交互也是挺不错的.

3. 其他

最后, 这一次开会也见到了许多大佬, 像硕哥, 那时候人群中瞥见身影就莫名觉得熟悉(虽然之前没见过hhh), 瞥见名牌才发现竟然是硕哥!!! 其他的外国人如果一直在做机器人, 大家肯定也知道他们是谁hhh; 不得不说自己还是非常激动的(希望没有侵犯到大佬们的肖像权)

16240c2a5e7edb186447d870980ca0e7.png
大佬们~

参会的时候似乎正好是40周年庆(但其实到底是啥庆我是真不知道hhh), 因此有一个盛大的晚会, 里面各路神仙都在, 好吃的好喝的随便拿. 同时国内的NOKOV动捕公司也请我们泰晤士河游船, 船上见到了孙富春老师, 同时也认识了很多做狗做飞机的朋友, 发现他们似乎会比做臂的自己路子野很多, 学到的东西也牛逼很多. 不过无论如何, 种种的这些似乎在一点点让自己从读研两年里无处不在的受挫中走出来, 让自己重新调整状态, 准备再一点点重新开始探索之路.

6bd92b3404a4d37d4b3c88c04dbdd4a8.png
难受那就吨吨吨hhh

在英国的时候其实也会觉得国外的生活并没有想象中那么好, 都只是各有特点罢了, 比如你想要欣赏大英博物馆的百年藏品, 就必须忍受大英地铁的百年座椅, 你想要体会人与自然和谐相处, 就必须忍受马路上的鸟屎遍地; 既要又要不是不行, 只是要多努力罢了. 另外像国外的房价虽然不高, 但饮食和公共设施等也贵的可怕, 最后在伦敦的几天每天都只舍得吃两顿饭, 矿泉水瓶子高低得接多几次水再扔, 他们的直饮水感觉还不如国内的自来水干净...当然了博物馆确实也是有趣, 比如见到了N年前的视觉抓取设备, 往往看到这些会觉得即使有那么多扯蛋的东西, 可是技术依然是在进步的, 总是有人前仆后继地希望做点什么, 嗯, 还是不错的~

ba418cdb6a9486a8d59d785fb33499b5.png
N年前的视觉抓取

最后的最后, 虽然机械臂本身确实还是偏制造业, 整体肯定还是会没有身边互联网/金融的朋友光鲜, 不过一直在里面待着, 不断地去探索, 回头看这一路肯定是值得的; 的确经常也会在想自己会在何时因何种契机转到哪个新的行业和, 但是至少现在还是想在机械臂行业多探索探索, 从高中时的一个幻想到读书时的不断学习, 以及到现在的具体行业真实落地, 这一整个过程走下来虽然跌宕起伏艰辛不断, 但是沿途风景确实也真不错!

所以继续解决具体的问题, 让糟心事随风去吧, 与大家共勉~

—END—

高效学习3D视觉三部曲

第一步 加入行业交流群,保持技术的先进性

目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶方向,细分群包括:

[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群;

[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群;

[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。

[三维重建方向]NeRF、colmap、OpenMVS、MVSNet等。

[无人机方向]四旋翼建模、无人机飞控等。

除了这些,还有求职、硬件选型、视觉产品落地等交流群。

大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。

be8a680764ede8c895cc2c38bc4bf76e.jpeg
添加小助理微信:cv3d007, 拉你入群
第二步 加入知识星球,问题及时得到解答
3.1 「3D视觉从入门到精通」技术星球

针对3D视觉领域的视频课程(三维重建、三维点云、结构光、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业、项目对接为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:「3D视觉从入门到精通」

学习3D视觉核心技术,扫描查看,3天内无条件退款 72c40cc431d6893069033486ed4c55f6.jpeg
高质量教程资料、答疑解惑、助你高效解决问题
3.2 3D视觉岗求职星球

本星球:3D视觉岗求职星球 依托于公众号「3D视觉工坊」和「计算机视觉工坊」、「3DCV」,旨在发布3D视觉项目、3D视觉产品、3D视觉算法招聘信息,具体内容主要包括:

  • 收集汇总并发布3D视觉领域优秀企业的最新招聘信息。

  • 发布项目需求,包括2D、3D视觉、深度学习、VSLAM,自动驾驶、三维重建、结构光、机械臂位姿估计与抓取、光场重建、无人机、AR/VR等。

  • 分享3D视觉算法岗的秋招、春招准备攻略,心得体会,内推机会、实习机会等,涉及计算机视觉、SLAM、深度学习、自动驾驶、大数据等方向。

  • 星球内含有多家企业HR及猎头提供就业机会。群主和嘉宾既有21届/22届/23届参与招聘拿到算法offer(含有海康威视、阿里、美团、华为等大厂offer)。

  • 发布3D视觉行业新科技产品,触及行业新动向。

00ea7d76734e64034b20c485c2af25ec.jpeg
扫码加入,3D视觉岗求职星球,简历投起来
第三步 系统学习3D视觉,对模块知识体系,深刻理解并运行

如果大家对3D视觉某一个细分方向想系统学习[从理论、代码到实战],推荐3D视觉精品课程学习网址:www.3dcver.com

科研论文写作:

[1]国内首个面向三维视觉的科研方法与学术论文写作教程

基础课程:

[1]面向三维视觉算法的C++重要模块精讲:从零基础入门到进阶

[2]面向三维视觉的Linux嵌入式系统教程[理论+代码+实战]

[3]如何学习相机模型与标定?(代码+实战)

[4]ROS2从入门到精通:理论与实战

[5]彻底理解dToF雷达系统设计[理论+代码+实战]

工业3D视觉方向课程:

[1](第二期)从零搭建一套结构光3D重建系统[理论+源码+实践]

[2]保姆级线结构光(单目&双目)三维重建系统教程

[3]机械臂抓取从入门到实战课程(理论+源码)

[4]三维点云处理:算法与实战汇总

[5]彻底搞懂基于Open3D的点云处理教程!

[6]3D视觉缺陷检测教程:理论与实战!

SLAM方向课程:

[1]深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战

[2]彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战

[3](第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化

[4]彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析

[5]彻底剖析室内、室外激光SLAM关键算法和实战(cartographer+LOAM+LIO-SAM)

[6](第二期)ORB-SLAM3理论讲解与代码精析

机器人导航与路径规划

[1]移动机器人规划控制入门与实践:基于Navigation2

视觉三维重建:

[1]彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进

[2]基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]

自动驾驶方向课程:

[1] 深度剖析面向自动驾驶领域的车载传感器空间同步(标定)

[2] 国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程

[3]单目深度估计方法:算法梳理与代码实现

[4]面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

[5]如何将深度学习模型部署到实际工程中?(分类+检测+分割)

无人机:

[1] 零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]

最后

1、3D视觉文章投稿作者招募

2、3D视觉课程(自动驾驶、SLAM和工业3D视觉)主讲老师招募

3、顶会论文分享与3D视觉传感器行业直播邀请

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值