强化学习
vehicoder
要做一个汽车界最会玩游戏的程序猿
展开
-
强化学习笔记之Critic(三)
前面介绍了Actor的策略,接下来介绍Critic。1. 什么是criticcritic就是一个神经网络,以状态s为输入,以期望的reward为输出。1.1 Actor和Critic的区别Actor是以s为输入,输出对应的action和其概率。Criti则是以s为输入,输出对应的reward期望值。1.2 为什么要有critic在前面介绍Actor时,我们定义的用来更新θ的▽R...原创 2020-04-14 16:27:36 · 6392 阅读 · 1 评论 -
强化学习笔记之gradient ascent(二)
一般而言,Actor的策略就是gradient ascentActor和Environment、Reward的关系如下:在一个回合episode中,这些state和action组成一条轨迹:Trajectory τ={s1,a1,s2,a2,…,sT,aT}\textbf {Trajectory} \space \tau = \lbrace s_1,a_1,s_2,a_2,\d...原创 2020-04-13 22:08:21 · 4418 阅读 · 1 评论 -
强化学习笔记之基本原理(一)
技术路线强化学习的发展如图所示,从policy based的policy gradient和value based的Q-Learning,到两者结合的actor-critic,综合了两者的优势,奠定了现在强化学习的基本框架。从A2C到A3C,大大提升了训练速度。强化学习policy-basedpolicy gradientvalue-basedQ-LearningactorcriticActo...原创 2020-04-13 22:07:44 · 673 阅读 · 0 评论 -
强化学习之Maltab/Simulink实现
1. 建立环境a. 建立动作和观测对象动作和观测可以分为两种:rlNumericSpec和rlFiniteSetSpec。rlNumericSpec:代表连续的动作或观测数据。rlFiniteSetSpec:代表离散的动作或观测数据。代码如下:obsInfo = rlNumericSpec([3 1],… % 创建一个3x1的观测矩阵 'LowerLimit',[-in...原创 2020-03-19 21:39:48 · 7570 阅读 · 0 评论 -
Q-Learning学习笔记
2020年3月8日 更新附上Q-Learning的流程图原创 2020-03-07 17:23:01 · 292 阅读 · 0 评论