shincling

From CASIA. In science we trust.

shincling

文章不错,很适合现在我来学,但是有几个问题随手写出来造福观众吧。

  • 链接错了,我去找了下是http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

    1. 未来回报折扣这里面的第三第四个公式粘错了。(然而原文里的第四个公式他好像也没按照他文章描述的那种方式写出来)

    2. Q-learning这一章节里的一句话翻译错了:“Q(s, a)可以理解为“在状态s下进行a操作之后,游戏结束时最有可能的得分 。” 不是最有可能的得分,是可能最大的得分。原文: the best possible score at the end of game 。根据马尔科夫的经典算法,应该也是可能最大这种理解对。

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/shincling/article/details/80124524
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭