![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 93
蛋总的快乐生活
无人驾驶小白,努力学习中。
展开
-
在gym的MountainCar环境下,用图片帧作为状态训练DQN网络
Apply DQN in gym environment in MountainCar-v0文章目录Apply DQN in gym environment in MountainCar-v0一、Gym Environment1.1 ACTION SPACE1.2 STATE SPACE1.3 REWARD1.4 DONE二、Deep Q-learning2.1 Preprocess Frame2.2 Stack Frames2.3 Replay Buffer2.4 Q-target network原创 2021-03-21 11:20:31 · 1211 阅读 · 1 评论 -
CARLA平台+Q-learning的尝试(gym-carla)
接触强化学习大概有半年了,也了解了一些算法,一些简单的算法在gym框架也实现了,那么结合仿真平台Carla该怎么用呢?由于比较熟悉gym框架,就偷个懒先从这个开始写代码。项目地址:https://github.com/cjy1992/gym-carla文章目录一、环境配置1.1 基本配置1.2 配置工作环境1.3 运行测试二、环境解读2.1 test.py--超参数设置2.2 环境介绍2.2.1 动作空间2.2.2 状态空间2.2.3 test.py主函数2.3.4 Q-learning2.3..原创 2021-03-16 19:09:40 · 6106 阅读 · 17 评论 -
Ubuntu20.04+Cuda11.2利用GPU运行Docker+Nvidia-Docker的总结
文章目录Docker的学习笔记0.监视显卡1.从官网镜像获取镜像文件2.对容器内的文件并编辑保存2.1 VIM方法2.2 拷贝并更新回容器-本地更新2.3 官方教程-上传到仓库3 Docker文件操作3.1 文件组成3.2 构建镜像3.3 转换成容器Docker的学习笔记0.监视显卡watch -n 1 nvidia-smi1表示每间隔1s监视一下显卡状态1.从官网镜像获取镜像文件参考链接具体操作为:拉取镜像(上海服务器)$ docker pull registry.cn-sh原创 2021-03-02 21:43:54 · 2402 阅读 · 0 评论 -
[强化学习三]基于值函数和基于策略的学习方法
文章目录4.2 基于值函数的学习方法4.2.1 动态规划算法-Model-based4.2.1.1 策略迭代算法4.2.1.2 值迭代算法4.2.2 蒙特卡洛方法-Model-free4.2.3 时序差分学习方法-Temporal-Difference Learning4.2.3.1 SARSA(on-policy)4.2.3.2 Q学习(off-policy)4.2.4 深度Q网络4.3 基于策略函数的学习方法4.3.1 REINFORCE算法4.3.2 带基准线的REINFORCE算法4.2 基于原创 2021-01-24 20:12:14 · 3868 阅读 · 1 评论 -
[强化学习一]隐马尔可夫基本概念
文章目录隐马尔可夫模型1.隐马尔可夫模型的基本概念1.1 隐马尔可夫模型的三个基本问题2.概率计算方法2.1 直接计算法2.2 前向算法2.3 后向算法(略)隐马尔可夫模型隐马尔可夫模型,(hidden Markov model)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的模型,属于生成模型。本章首先介绍隐马尔可夫模型的基本概念,然后分别叙述隐马尔可夫模型的概率计算方法,学习算法以及预测算法。隐马尔可夫模型再语音识别,自然语言处理,生物信息,模式识别等领域有着广泛的应用。原创 2021-01-24 19:57:09 · 730 阅读 · 1 评论 -
强化学习(一)Fundamentals of Reinforcement Learning
强化学习(一)Fundamentals of Reinforcement Learning第〇章 An Introduction to Sequential Decision-Making0.1 Sequential Decision Making with Evaluative Feedback0.2 Learning Action Values0.3 Estimating Action Values Incrementally0.4 What is the trade-off?0.5 Optimisti原创 2020-09-21 22:08:12 · 2527 阅读 · 0 评论 -
强化学习系列笔记
强化学习强化学习(一)Fundamentals of Reinforcement Learning强化学习(二) Sample-based Learning Methods一、Monte Carlo Methods for Prediction & Control二、Temporal Difference Learning Methods for Prediction三、Temporal Difference Learning Methods for Control强化学习(三) Sample-ba原创 2020-09-20 15:49:18 · 177 阅读 · 0 评论 -
强化学习(二) 第二章 Temporal Difference Learning Methods for Prediction
第二章 Temporal Difference Learning Methods for Prediction2.1 What is Temporal Difference (TD) learning?2.2 Rich Sutton: The Importance of TD Learning2.3 The advantages of temporal difference learning2.4 Comparing TD and Monte Carlo2.5 and Rich Sutton: More原创 2020-09-20 15:45:23 · 321 阅读 · 0 评论 -
强化学习(二) 第一章 Monte Carlo Methods for Prediction & Control
第一章 Monte Carlo Methods for Prediction & Control1.1 What is Monte Carlo?MC是直接从episodes中学习,不知道先验的知识,对比赌博机,而且是通过完整的episode,然后注意的是通过MC对于MDP问题来说,所有的spisode必须是有限(终结的),更新的时候是通过episode而不是step。K臂赌博机问题通过摇臂最后平均最后的Rewards,是已知道的值,而Monte Carlo方法最后通过Return原创 2020-09-20 15:40:54 · 212 阅读 · 0 评论 -
强化学习(二) Sample-based Learning Methods
强化学习(二) Sample-based Learning Methods第一章 Monte Carlo Methods for Prediction & Control1.1 What is Monte Carlo?1.2 Using Monte Carlo for Prediction1.3 Using Monte Carlo for Action Values1.4 Using Monte Carlo methods for generalized policy iteration1.5 So原创 2020-09-19 17:55:56 · 1502 阅读 · 0 评论