强化学习
接天莲叶别样红
这个作者很懒,什么都没留下…
展开
-
强化学习1
1.MDP过程\textbf{1.MDP过程}1.MDP过程2.单轮回报reward R和长期回报return G\textbf{2.单轮回报reward R和长期回报return G}2.单轮回报reward R和长期回报return GReward R是单轮回报RnR_nRn, Return G是序列未来的整体收益GnG_nGn,可以表示为:...原创 2019-06-05 15:34:39 · 144 阅读 · 0 评论 -
强化学习2-value函数的近似
在强化学习中,如果状态是比较少,可以使用表格的方法类存储所有的转态和动作,每个格子代表一个状态。但是在类似围棋游戏中,每下一个子就是一种状态,那么这些状态就非常多了,如果在程序中要用一个表格来表示状态与状态对应的值函数的话,那么内存就远远不够用了。另外,当状态不是离散的时候,就无法用表格来表示了。所以,我们需要另外的方法来表示状态与状态对应的值函数。所以需要机器学习(比如:各种神经网络模型)的...原创 2019-06-06 11:41:29 · 258 阅读 · 0 评论 -
强化学习3-策略梯度(policy gradient)
1. value-based和policy gradient的不同:a. 输出不同: value-based方法 (Q learning, Sara)输出的是p(s)p(s)p(s)或p(s,a)p(s,a)p(s,a); Policy gradient输出的p(a∣s)p(a|s)p(a∣s), 这样 policy gradient 就跳过了 value 这个阶段.b. 选取actio...原创 2019-06-11 20:26:26 · 2092 阅读 · 1 评论