Talk|麻省理工学院李晨昊:发展式腿足智能-从模仿到生成

本期为TechBeat人工智能社区578线上Talk。

北京时间3月13日(周三)20:00,麻省理工学院博士生李晨昊的Talk已准时在TechBeat人工智能社区开播!

他与大家分享的主题是: 发展式腿足智能-从模仿到生成,向大家系统地介绍了专家示范(expert demonstrations)在机器人学中的作用,以及从受限演示中学习的三种创新方法,并展示它们在腿部机器人学中的成功应用。

Talk·信息

主题:发展式腿足智能-从模仿到生成

嘉宾:麻省理工学院 李晨昊

时间:北京时间  3月13日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=856

Talk·介绍

在本次talk,我将探讨专家示范(expert demonstrations)在机器人学中的作用,特别是其作为生物仿真基准和学习过程加速器的双重功能。虽然理想的专家动作往往无法实现,但我将讨论从受限演示中学习的三种创新方法,并展示它们在腿部机器人学中的成功应用。演讲将涵盖多种方法,包括生成式对抗模仿学习、无监督技能发现,以及将自我监督模型与表征和课程学习策略相结合。

Talk大纲

1、背景-随着智能系统自由度的提高,强化学习中的奖励塑造往往难以实现理想技能的管理。专家示范作为高效监督信号可以极大地帮助强化学习中的效率和探索问题。

2、动机-高质量的专家示范作为昂贵的数据往往难以获得。

3、问题-如何在有限的专家示范下,仍有效获取其中信息作为强化学习中的高效监督信号。

4、解决方案-在专家示范粗略或缺失的情况下,提出的WASABI方法可以有效捕获辨别器的奖励信号,避免了生成对抗网络饱和情况下的辨别器奖励信号失效的问题。在专家示范混杂的情况下,提出的CASSI方法使用无监督技能发现避免了生成对抗网络的模态坍缩问题,使得策略学习结果多样化。在专家示范稀疏的情况下,提出的FLD方法通过傅里叶变换和隐空间动力模型,高效获取高维输入的时空参数,在隐空间上进行插值获取数据的连续表征并生成新数据。

Talk·预习资料

图片

论文链接:  

https://arxiv.org/pdf/2206.11693.pdf

项目链接: 

https://sites.google.com/view/corl2022-wasabi/home

图片

论文链接:   

https://arxiv.org/pdf/2209.07899.pdf

项目链接:  

https://sites.google.com/view/icra2023-cassi/home

图片

论文链接:    

https://arxiv.org/pdf/2402.13820.pdf

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

图片

李晨昊

麻省理工学院·博士生

我目前是瑞士联邦理工学院人工智能中心(ETH AI Center)、麻省理工学院(MIT)的博士研究员。在此之前,我在苏黎世联邦理工学院获得机器人、系统与控制硕士学位。 我的研究兴趣集中在能让智能体通过学习获得复杂行为的算法上,尤其是能让任何自主系统学习解决任何任务的通用方法。特别是在腿足机器人上,我很高兴能应用这些技术来实现动物级的敏捷性和自然性。

个人主页: https://www.techbeat.net/grzytrkj?id=38056


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值