模仿学习

最新推荐文章于 2022-03-30 19:41:31 发布

来路与归途

最新推荐文章于 2022-03-30 19:41:31 发布

阅读量290

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42233538/article/details/104953776

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习根据状态是否可以被完全观测，可将问题分为全观测策略和非全观测策略

从监督问题到序列化问题，主要是通过添加序列化内容，以进行决策

模仿学习是针对非完全观测的监督学习

模仿学习的基本训练方式：

1.使用人为标定的数据进行网络训练，2.运行该网络获取新的待标定数据，3.进行人为数据标注，4.将标注完的数据与原数据结合从新训练网络

导致模仿学习失败的主要原因：

非马尔科夫行为

多模型行为

可以分为离散动作（放置一个softmax函数解决）、连续动作（1.混合密度网络（混合高斯网络），2.隐变量模型，3.自动回归离散化）

来路与归途

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模仿学习

强化学习根据状态是否可以被完全观测，可将问题分为全观测策略和非全观测策略从监督问题到序列化问题，主要是通过添加序列化内容，以进行决策模仿学习是针对非完全观测的监督学习模仿学习的基本训练方式：1.使用人为标定的数据进行网络训练，2.运行该网络获取新的待标定数据，3.进行人为数据标注，4.将标注完的数据与原数据结合从新训练网络导致模仿学习失败的主要原因：非马尔...
复制链接

扫一扫

专栏目录

来路与归途 CSDN认证博客专家 CSDN认证企业博客

码龄6年

245: 原创

17万+: 周排名

4万+: 总排名

37万+: 访问

: 等级

4750: 积分

100: 粉丝

210: 获赞

74: 评论

1234: 收藏

私信

关注

热门文章

分类专栏

面试 42篇
算法导论 25篇
pytorch 3篇
工程实践 11篇
Transformers 1篇
k-means
Canopy
搜索引擎 2篇
数据库 4篇
论文笔记 15篇
数据集 2篇
Tkinter 2篇
强化学习 1篇
GAN 2篇
CV2 1篇
随机数 3篇
python 62篇
tensorflow 31篇
机器学习 11篇
爬虫 1篇
算法思想 13篇
文件读取 3篇
numpy 1篇
3D点云 3篇
软件安装 3篇
Faster R-CNN 5篇

最新评论

tkinter窗口切换
m0_57781693: import tkinter as tk
tkinter窗口切换
m0_57781693: from tkinter import ttk
公交车-最短路径
CSDN-Ada助手: 如何使用模拟退火算法对复杂问题进行求解？
n个花园最少多少天完成种花
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
torch报错
小珑gg22mm: 不是叫你测试，是叫你怎么解决

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。