论文笔记1--Building Generallizable agents with a realistic and rich 3D environment

摘要

教代理在一个看不见的3D环境中导航是一件非常具有挑战性的工作。机器人需要对微小变化(如颜色,材质,对象的改变)和差异大的变化(环境布局的改变)具有鲁棒性。提出House3D,House 3D特点:丰富/可扩展/高效,其中包含45622人类设计的3D场景可视化的真实场景,从单个房间到多层楼房,包括标有表亲的3D物体,材质,布局。基于SUNCG数据库。

简介

    深度强化学习在游戏的表现由于人类。通过各种强化学习框架,可以学习不同的智能,包括

1. 3D理解(DeepMind Lab(BeaTet等人,2016)和马尔默(约翰逊等人,2016))

2. 实时性战略决策(TorchCraft(SynEvE等人,2016)和ELF(田等人,2017))

3. 快速反应(AtARI(BeleMa等人,2013))

4. 长期规划(围棋,国际象棋)

5. 语言和通信(PARLAI(Miller等人,2017)和(DAS等人,2017B))。

    强化学习一个突出的问题是可推广行。通常,在特定环境下为特定任务训练的代理,在新的环境中不能很好的执行。

1.像素级将变化应用于观测信号,以提高该代理对未知环境的鲁棒性(BeTaTet等人,2016;希金斯等人,2017;托宾等人,2017)。

2 具有不同难度水平的参数化环境被用来产生场景变化,但具有相似的视觉观察Paak等。

3 转移学习被应用到类似的任务,但不同的奖励费恩等。

提出House3D

一个虚拟的三维环境house3d设备齐全的室内场景,由成千上万不同的场景类型进行设置,与对象的布局。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值