强化学习
来路与归途
来路慢慢,情不知所起;
归途遥远,眨眼便是过去。
展开
-
模仿学习
强化学习根据状态是否可以被完全观测,可将问题分为全观测策略和非全观测策略从监督问题到序列化问题,主要是通过添加序列化内容,以进行决策模仿学习是针对非完全观测的监督学习模仿学习的基本训练方式:1.使用人为标定的数据进行网络训练,2.运行该网络获取新的待标定数据,3.进行人为数据标注,4.将标注完的数据与原数据结合从新训练网络导致模仿学习失败的主要原因:非马尔...原创 2020-03-18 22:20:58 · 256 阅读 · 0 评论 -
第一章 初始强化学习
实例——“小车上山”步骤1,获取环境对象env = gym.make('MountainCar-v0')print('观测空间 = {}'.format(env.observation_space))print('动作空间 = {}'.format(env.action_space))print('观测范围 = {} ~ {}'.format(env.observation_spa...原创 2019-11-30 16:31:38 · 911 阅读 · 0 评论