reinforcement learning
强化学习笔记
DrHun
这个作者很懒,什么都没留下…
展开
-
【reinforcement learning】Deep Q-Learning(DQN)简介
Deep Q-Learning(DQN)一、什么是DQN(一)为什么出现了DQN? 在Q-Learning和Sarsa算法中,我们使用了一种数据结构:Q表,用Q表存储所有的状态以及每个action的Q值。在现实问题中,不仅action种类可能非常多,state的数量更可能是指数级,这就为我们存储Q表和查找对应状态带来了很大的麻烦。在机器学习中,我们可以将state和action输入到神经网络中,神经网络分析后输出action的Q值,然后我们再根据Q-learning的原则执行之后的操作。原创 2020-09-02 17:09:29 · 496 阅读 · 0 评论 -
【reinforcement learning】Sarsa简介
Sarsa算法及其改进Sarsa与Q-learningsarsa与Q-learning非常的相似,唯一不同的地方就是两者在更新Q表时的不同。Q-learing的更新方法给定一个state s根据s和Q选择出一个action aaa(有ϵ\epsilonϵ的几率选择最大的action,(1−ϵ)(1-\epsilon)(1−ϵ)级几率随机选择action。进行aaa,获得r,s′r,s'r,s′Q(s,a)=Q(s,a)+α[r+γmaxa′Q(s′,a′)−Q(s,a)]Q(s,a)=Q原创 2020-08-30 20:07:45 · 253 阅读 · 0 评论 -
【reinforcement learning】Q-Learning简介
Q-Learning简介一、Learning a critic一个critic不决定动作,给定一个actor π\piπ,critic可以给出这个π\piπ有多好state value Function Vπ(s)V^{\pi}(s)Vπ(s)给出一个actor π\piπ的前提下,假设看到的环境是s,那么,一直到结束,得到的reward的期望值有多大。如何衡量一个critic的好坏呢?monte-carlocritic去看π\piπ的游戏,π\piπ在经过SaS_aSa之后,会原创 2020-08-29 19:36:11 · 369 阅读 · 0 评论