【强化】imitation learning

没有reward的情况
learning by demonstration/

behavior learning

behavior learning类似监督学习。
ex1. 自动驾驶
人类作为experts, 收集人类驾车时在各种场景(s)下的反应(a), 作为训练资料。
在这里插入图片描述
但是,由于没有人会去撞墙,导致agent在学习的时候缺乏快要撞墙时候的反应数据,会让agent不知道接下来该怎么做。
在这里插入图片描述
这时候需要使用dataset aggregation的方法: 收集更多样性的data, 而不只是看到的expert的行为
在这里插入图片描述
比如,发生了撞墙的后果后,再拿这个数据去训练。但是这样在现实中是不可行的。
Behavior learning 的问题
· 完全学习expert, 也会学习无用甚至错误的行为。 ex. 生活大爆炸 Howard教Sheldon带口音的中文
· agent学习能力有限,可能学到的是不重要的
· mismatch: 训练数据和测试数据不是相同的distribution
在这里插入图片描述

Inverse Reinforcement Learning

在这里插入图片描述
IRL是用环境和expert返推出reward function

在这里插入图片描述
假设expert是最好的。
expert完成N局游戏,获得N个trajectory;初始化一个actor π \pi π 也完成N个trajectory。得到一个reward function( 比如是一个neural network 保证expert 的reward一定大于actor的reward,再通过RF更新actor,再更新RF… -> GAN

在这里插入图片描述
Actor就是generator,reward function就是 Discriminator

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值