强化学习
yyyybupt
这个作者很懒,什么都没留下…
展开
-
强化学习初系列1--简述强化学习(入门)
1、基本原理如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。2、强化学习VS监督学习目标:动态地调整参数,以达到强化信号最大若已知r/A梯度信息,则可直接使用监督学习算法。强化信号r与Agent产生的动作A没有明确的函数形式描述,所以梯度...原创 2019-03-05 10:50:39 · 454 阅读 · 0 评论 -
强化学习2--策略梯度(2)
从s到最后一个状态的一个系列奖励是一个随机变量目标函数:随机变量的期望(1):对于系列,找到最优策略假设神经网络的结构参数为公式(1)化简可得:(2)公式(2)求取梯度得:(3)通过倒数求变换得:(4)(4)代入(3)得到:(5)对于序列T,策略(6)将6代入5得:(7)策略梯度:更新梯度优点更好的收敛性 高效处理行为空...原创 2019-03-05 19:03:20 · 151 阅读 · 0 评论 -
强化学习2--策略梯度(1)
目标函数对于一个带有参数的策略,找到最优的定义start value: average value: average reward per time-step:目标函数的优化1、有限差分策略梯度策略梯度策略梯度算法可以使目标函数沿着梯度上升至局部最大值: 策略梯度: 有限差分计算策略梯度:,为单位向量2、蒙特卡罗策略梯度score func...原创 2019-03-05 19:03:38 · 613 阅读 · 0 评论 -
DPG以及DDPG
1、确定性策略梯度(Deterministic policy gradient)DPG累积折扣奖励策略梯度J()和策略梯度与值函数有关1.1、Actor-criticActor是策略网络,做动作选择(空间探索)Critic是值函数,对策略函数进行评估TD-error就是Critic告诉Actor的偏差将策略梯度的框架扩展到确定性策略,确定性政策梯度定...原创 2019-04-03 21:04:43 · 9065 阅读 · 0 评论