![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DRL
新角度着想
这个作者很懒,什么都没留下…
展开
-
强化学习入门
1.基本概念state:当前环境的状态+agent自身的状态,是一个随机变量,受到环境的影响policy:根据当前state给出相应action的概率State transition:在给定state,action下,环境给出下一个state的概率return:回报,表示从t时刻开始未来所有回报的折扣累积,是一个随机变量,随机性来自于未来所有state和actionActi...原创 2020-04-03 18:36:27 · 462 阅读 · 1 评论 -
Q-Learning笔记
https://blog.csdn.net/cindy_1102/article/details/87907470原创 2020-03-06 20:14:27 · 126 阅读 · 0 评论 -
PPO(proximal policy optimization)笔记
https://blog.csdn.net/cindy_1102/article/details/87905272原创 2020-03-04 22:17:19 · 359 阅读 · 0 评论