Zhang's Wikipedia

玩就玩大的

强化学习 —— gym

0. gym 下的数据结构 Discrete: gym.spaces.discrete.Discrete env.action_sample 的返回值就是 Discrete 类型 Discrete(n):{0, 1, 2, 3, n-1},表示的是正整数的离散空间; 成员函数: sample...

2018-11-09 19:37:07

阅读数:240

评论数:1

强化学习 —— 资源清单

模型从一无所知,到成为该领域的专业人士,又凭借其强大的计算能力,远远地甩开人类该领域的顶尖大师,模型能够学习规则和行为在于其背后有一个“好老师”,这位老师的使命不是上课,告知机器该怎么做,而是对机器的行为(policy network)进行打分和评判(value network),这样机器会记录如...

2017-01-06 23:50:27

阅读数:2035

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭