强化学习
五道口纳什
wx公众号/B站:五道口纳什
展开
-
强化学习 —— gym
0. gym 下的数据结构Discrete:gym.spaces.discrete.Discreteenv.action_sample 的返回值就是 Discrete 类型Discrete(n):{0, 1, 2, 3, n-1},表示的是正整数的离散空间;成员函数:sample():离散值空间中进行采样;contains(k):离散值空间中是否包含 k;1. 认识...原创 2018-11-09 19:37:07 · 1932 阅读 · 2 评论 -
强化学习 —— 资源清单
模型从一无所知,到成为该领域的专业人士,又凭借其强大的计算能力,远远地甩开人类该领域的顶尖大师,模型能够学习规则和行为在于其背后有一个“好老师”,这位老师的使命不是上课,告知机器该怎么做,而是对机器的行为(policy network)进行打分和评判(value network),这样机器会记录如下:高分:努力取得高分;低分:竭力避免低分;这样才能使机器的每一步选择都比较理想;原创 2017-01-06 23:50:27 · 3060 阅读 · 0 评论