监督学习和模仿学习
State和Observation之间的区别
Observation是State的结果,根据State的像素才能得到Observation的序列
Imitation Learning
例子:自动驾驶汽车,通过记录司机的一系列action和observation,从而构建数据集,送入CNN最后训练出来一个模型,判断什么情况下需要做出的action
问题:一点点微小的误差可能导致后期比较大的差别,在从未接触过的空间中,容易出现比较大的决策失误
解决方案:
- 通过添加三个Camera来进行一定程度的回转偏移,从而训练出更稳定的网络
- 不仅仅记录样本轨迹,更要记录分布,从而更好的利用分布进行纠正
- 通过打标签的方式来手动不断纠正
p
d
a
t
a
(
O
t
)
p_{data}(O_t)
pdata(Ot)
导致拟合专家系统失败的原因
- 非马尔可夫过程行为(未来的决策不一定全部依靠现在的状态):使用LSTM
- 多模型行为:
- 针对离散行为,使用Softmax进行分布的统计,在某个情况下的概率最大(Softmax用于多分类,Sigmoid用于二分类)
- 针对连续行为,输出混合的高斯分布;隐变量模型;自动回归离散化(如果离散化的维度过高,可能面临维度灾难,而一次只离散化一个维度则不会;先使用Softmax进行第一维的分类,然后将结果采样写入第二维分类的内容中,再利用Softmax进行第二维分类,依此类推)
总结
模仿学习的相关问题
- 需要大量的数据进行训练,而训练的数据是有限的
- 对于一些特殊的行为无法进行示范
- 机器可以进行自主学习吗