CS294-第二讲监督学习和模仿学习

最新推荐文章于 2022-07-07 19:50:07 发布

JasonSparrow_1

最新推荐文章于 2022-07-07 19:50:07 发布

阅读量1.2k

点赞数

分类专栏： CS294 文章标签： RL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JasonSparrow_1/article/details/88936618

版权

CS294 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

监督学习和模仿学习

State和Observation之间的区别

Observation是State的结果，根据State的像素才能得到Observation的序列

Imitation Learning

例子：自动驾驶汽车，通过记录司机的一系列action和observation，从而构建数据集，送入CNN最后训练出来一个模型，判断什么情况下需要做出的action
问题：一点点微小的误差可能导致后期比较大的差别，在从未接触过的空间中，容易出现比较大的决策失误
在这里插入图片描述
解决方案：

通过添加三个Camera来进行一定程度的回转偏移，从而训练出更稳定的网络
不仅仅记录样本轨迹，更要记录分布，从而更好的利用分布进行纠正
通过打标签的方式来手动不断纠正 $p_{data}(O_t)$

导致拟合专家系统失败的原因

非马尔可夫过程行为(未来的决策不一定全部依靠现在的状态)：使用LSTM
多模型行为：
- 针对离散行为，使用Softmax进行分布的统计，在某个情况下的概率最大(Softmax用于多分类，Sigmoid用于二分类)
- 针对连续行为，输出混合的高斯分布；隐变量模型；自动回归离散化(如果离散化的维度过高，可能面临维度灾难，而一次只离散化一个维度则不会；先使用Softmax进行第一维的分类，然后将结果采样写入第二维分类的内容中，再利用Softmax进行第二维分类，依此类推)

总结

在这里插入图片描述

模仿学习的相关问题

需要大量的数据进行训练，而训练的数据是有限的
对于一些特殊的行为无法进行示范
机器可以进行自主学习吗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS294-第二讲监督学习和模仿学习

监督学习和模仿学习
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。