模仿学习

强化学习根据状态是否可以被完全观测,可将问题分为全观测策略和非全观测策略

从监督问题到序列化问题,主要是通过添加序列化内容,以进行决策

 模仿学习是针对非完全观测的监督学习

 

模仿学习的基本训练方式:

1.使用人为标定的数据进行网络训练,2.运行该网络获取新的待标定数据,3.进行人为数据标注,4.将标注完的数据与原数据结合从新训练网络

 导致模仿学习失败的主要原因:

非马尔科夫行为

 多模型行为

可以分为离散动作(放置一个softmax函数解决)、连续动作(1.混合密度网络(混合高斯网络),2.隐变量模型,3.自动回归离散化)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值