不到现场,照样看最干货的学术报告!
嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。
人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年7月26日,第17期“AI未来说·青年学术论坛”百度奖学金特别专场论坛以“线上平台直播+微信社群图文直播”形式举行。上海交通大学方浩树带来报告《人类行为理解与机器人物体操作》。
上海交通大学方浩树做“人类行为理解与机器人物体操作”主题报告分享
方浩树,上海交通大学吴文俊人工智能荣誉博士班,致远荣誉博士计划,计算机专业一年级博士生,主要研究方向为人类行为理解与机器人物体操作。此前在ICCV,CVPR,AAAI,ECCV会议上发表十篇论文,其中6篇一作。博一期间获得CCF-CV学术新锐奖与百度奖学金。
人类行为理解与机器人物体操作
在报告正式开始之前,方浩树先解答了观众的一个问题,即“现在AI除了图像处理和语音识别外,还有哪些比较好的方向?”他回答道:机器人物体操作。因为在图像处理还有语音识别的领域的话,AI做的相当于一个理解人或者理解图像,本身做的是对这个世界的理解。但这个过程它其实能反过来,比如说用主观能动来改变这个世界。这个图像处理做的其实不多,比如说你在安防里,它最主要是提供一些信息的抽取。但是机器人领域它如果是用AI的话,它就可以相当于赋能机器人反过来服务人类,相当于对这个世界有主观能动的这么一个改变的作用。所以这也就是为什么推荐机器人这个方向的原因。
之后,方浩树开始了正式的报告分享。
首先,方浩树对自己作了一个简单的自我介绍。他本科上海交通大学计算机专业,目前研究方向是人类行为理解,包括人类的姿态估计,人类的语义解析,还有一些人物交互关系的识别等等。在机器人研究方面,他主要感兴趣的是机器人的抓取,还有机器人物体操作这些方向。
方浩树对他的研究做了一个概述:自己的主要愿景是机器人会在工业农业还有服务业会发挥越来越大的作用。他面临的挑战是机器人怎么样快速的适应不同的环境,或者说如果让机器人有这么一个能力,那么目标是希望机器人可以从人类的示例中学习,赋能机器人进行物体操作。
接下来,方浩树对他的工作进行了具体的讲解,主要有以下几点内容:
一是,在人类行为理解方面的研究。
这方面会从一些宏观的角度来讲,方浩树根据不同的文章进行了讲述。如果大家对技术细节有感兴趣的,可以具体看一看论文,论文标题在图的左下角已经标注出来。
第一个研究工作的成果发表在ICCV 17上。这篇文章的主要工作是针对多人场景姿态估计,提出一个两步法的RMPE框架。多人场景姿态估计的目标是在一个多人场景里识别每一个人,然后同时把每一个人的骨架抽取出来。这个跟赵明民学长所讲述的穿墙骨架识别其实有相似之处,只不过这里是直接从RGB图像来抽取。这一篇文章主要解决的问题是在人体检测不准的时候,怎么进行姿态估计,使得基于两步法的一个算法可以鲁棒的运行,该算法的速度比之前的算法快了600倍,精度提升了10个点。
第二个研究工作的成果发表在AAAI 18上,这篇文章的工作是把一个语法模型跟神经网络进行融合。具体来说,包括三个语法,一是人的姿态对称语法,就是说人的左手跟右手或者左脚跟右脚长度应该至少是一样的或者差不多;二是这种运动学的语法,比如说人在运动的时候,一般不会同手同脚的进行运动;三是人的树状结构的语法,相当于在推测一个点的时候,会考虑到人的树状结构上的一系列的点,比如说他在预测手腕的3D姿态的时候,或者说三维位置的时候,会同时结合肩膀跟手肘的姿态来进行预测。
第三个研究工作的成果发表在CVPR 18上,这篇文章开始做了人体的细粒度的像素级别的解析,这个任务是说把人体各个部位的语义识别出来,比如说这个像素它代表是人的手还是衣服或者是头发脖子等等。这篇文章主要提出一个弱监督学习的方法,之所以要做弱监督,是因为做Human Parsing的数据标注会很困难的,因为它需要对每个像素进行一个分析,所以它的训练数据实际上会很少。而这个方法的思想是把大量的人体关键点数据,也就是把大量的pose数据里面的知识迁移到小样本的任务里面来。
第四个研究工作的成果发表在ECCV 18上。在人类执行行为理解里面有一个重要任务叫Human-Object interaction,就是人物交互关系的这种识别,具体来说就是它需要识别在一张图片或者一个视频里,一个人现在在跟某一个物体做怎么样的交互?比如说hold the water,拿着杯子,或者说打开冰箱等等,这种的话就相当于是作用是把视频的这种高级别的语义提取出来,变成一个一个的主谓宾这样一个动词。
这一篇文章的主要贡献是把人在跟物体交互的时候,人的身体各部位之间的协同关系给挖掘出来了,把人的肢体跟肢体间的高阶关系,他们对它进行了一个显式的建模,这样的话他们会在人物关系识别任务上比之前最好的结果相对提升了10%的水平。
下图展示的是基于 ICCV 17的论文,开源的一个多元人体姿态估计及跟踪库,其中包括人体躯干、手指头、脸部一共100多个关键点。大家如果感兴趣的话,可以在GitHub上下载尝试。
二是,方浩树最近在机器人物体操作上面的工作。
机器人物体操作有一个难点,就是机器人物体抓取。如果一个物体它都抓不起来,实际上后续就没有办法进行任何的操作了。所以物体操作的重要性可以等同于物体检测在计算机领域里的重要性一样。但是物体抓取这么一个问题,它有很多痛点。因为现在它的问题本身是在机械领域,而在解决方案实际上是需要计算机视觉领域的人来做的。然后在传统机器人领域的话,一般做测试或者收集数据都是用真的机器来做,用它collection或者evaluation。这样的话对他们计算机视觉领域来说门槛太高了,因为不可能每个实验室都去买一台这种机械臂,这种一台可能要十几万、二十几万。但是在计算机视觉领域,之前存在两种数据收集还有验证的方法,一种是手工标注数据,这种的话可以看到它的标注的数据很稀疏,而且它跟真实的抓取是有差别的。然后另一种就是在仿真环境里模拟,这样的话存在一个问题,就是它的视觉感知跟真实的存在比较大的偏差。
问题随之而来,是不是存在一种方式,它既可以提供真实的大量的这种抓取的数据,又能提供真实的视觉感知。基于此,他们就提出了GraspNet-1Billion,这是是第一个大规模,富标注,还带有一个统一评测框架的一个机器人抓取姿态的数据集。他们的构建哲学就是在真实的环境里获得视觉的感知,然后在仿真的环境里获得抓取的标签。
方浩树具体分为三个方面介绍了他们团队在这方面的工作。
第一个方面是它具备的可迁移性和泛化性。这方面的工作牵扯到它目前的大规模的训练数据。下图描述了构建数据集的过程。第一步是在最左边给定一个物体的三维模型。它实际上是可以在仿真环境里获得单个物体的大量的抓取姿态的标签,一个物体的标签可能会有几百万级。下一步是通过物体的6D pose把该物体在图片上的位置标注出来,之后将物体和抓取姿态投影到图片上去。图中右边是实际收集的一个环境。
这个数据集的有如下几个特点:第一个特点是该数据集有丰富的原始的数据,包括物体的三维模型,多视角的图片,多相机拍摄,同时带有RGB和Depth的图片。第二个特点是它具有稠密的数据标签,包括了物体的6D位置,这就相当于得到了物体在图片里的translation和rotation,也就是位置还有旋转角信息。数据标签还有六维的抓取姿态、物体级别的掩码以及平面抓取姿态等。第三个特点是具有一个统一评测系统,评测系统会在线计算预测的抓取姿态的分数,降低了计算机视觉领域进行统一测评的门槛。方浩树利用了动图来具体展示了数据集的三个特点。
下图是他们团队跟现有公开数据集的一些对比。可以看到他们在抓取的标注上,即他标红框的两个位置,比之前的数据集都要高出好几个数量级。
下面是一些详细的信息对比。可以看到在多个维度上,比如说是不是有多个物体、还有是不是有每张图片有多个grasp pose、6 DoF的,以及是不是带有RGB-D的图片等等。可以看到他们这个数据集实际上在各个维度上都是完备的,同时他们的抓取姿态的数量也是达到10亿级别,比之前都要高很多。
三是,方浩树的团队在统一评测方面的工作。
刚才说到,机器人界或者图形学界或者计算机视觉系界的研究在做evaluation的时候是存在各种各样的问题。而方浩树的团队他们的做法是:在提供的一个真实的点云里,将数据交给一个算法,算法会进行预测。比如下图中,预测了A、B两个grasp,在得到预测grasp pose之后,首先在仿真环境里,进行一个 simulation,判断 grasp pose本身是不是稳定的。其次会利用受力分析,直接计算 grasp是不是能形成力闭锁,通过这两步就可以快速又简便,而且可以对各种各样的grasp pose表现形式都做一个统一的验证。
最后,方浩树的团队在在数据集的完备性上的工作。
完备性指的是它抓取姿态是特别丰富,可以适应于后续的路径规划,还有具体的物体操作的问题。如下图,方浩树结合他们