【强化】imitation learning

最新推荐文章于 2024-09-27 22:44:03 发布

Citroooon

最新推荐文章于 2024-09-27 22:44:03 发布

阅读量63

点赞数

文章标签： chatgpt 人工智能深度学习算法学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Citroooon/article/details/132129760

版权

没有reward的情况
learning by demonstration/

behavior learning

behavior learning类似监督学习。
ex1. 自动驾驶
人类作为experts, 收集人类驾车时在各种场景(s）下的反应(a)，作为训练资料。
在这里插入图片描述
但是，由于没有人会去撞墙，导致agent在学习的时候缺乏快要撞墙时候的反应数据，会让agent不知道接下来该怎么做。

这时候需要使用dataset aggregation的方法: 收集更多样性的data, 而不只是看到的expert的行为
在这里插入图片描述
比如，发生了撞墙的后果后，再拿这个数据去训练。但是这样在现实中是不可行的。
Behavior learning 的问题
· 完全学习expert, 也会学习无用甚至错误的行为。 ex. 生活大爆炸 Howard教Sheldon带口音的中文
· agent学习能力有限，可能学到的是不重要的
· mismatch：训练数据和测试数据不是相同的distribution
在这里插入图片描述

Inverse Reinforcement Learning

在这里插入图片描述
IRL是用环境和expert返推出reward function

在这里插入图片描述
假设expert是最好的。
expert完成N局游戏，获得N个trajectory；初始化一个actor $\pi$ 也完成N个trajectory。得到一个reward function( 比如是一个neural network 保证expert 的reward一定大于actor的reward，再通过RF更新actor，再更新RF… -> GAN

在这里插入图片描述
Actor就是generator，reward function就是 Discriminator

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。