
强化学习
五道口纳什
wx公众号/B站:五道口纳什
展开
-
强化学习 —— gym
0. gym 下的数据结构 Discrete: gym.spaces.discrete.Discrete env.action_sample 的返回值就是 Discrete 类型 Discrete(n):{0, 1, 2, 3, n-1},表示的是正整数的离散空间; 成员函数: sample():离散值空间中进行采样; contains(k):离散值空间中是否包含 k; 1. 认识...原创 2018-11-09 19:37:07 · 2003 阅读 · 2 评论 -
强化学习 —— 资源清单
模型从一无所知,到成为该领域的专业人士,又凭借其强大的计算能力,远远地甩开人类该领域的顶尖大师,模型能够学习规则和行为在于其背后有一个“好老师”,这位老师的使命不是上课,告知机器该怎么做,而是对机器的行为(policy network)进行打分和评判(value network),这样机器会记录如下: 高分:努力取得高分; 低分:竭力避免低分; 这样才能使机器的每一步选择都比较理想;原创 2017-01-06 23:50:27 · 3094 阅读 · 0 评论