2018年03月_对半独白

12月 11月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创机器学习方法篇(25)------RL价值学习方法

● 每周一言对待别人的轻视，最好的回击是站在更高的位置。导语上一节讲了如何理解增强学习中的马尔科夫决策过程，并举了具体的例子来描述其求解方法，对算法熟悉的人或许已经看出上节示例中使用的方法是动态规划学习法。那么，除了动态规划法，增强学习的价值学习方法还有哪些？这些方法的不同之处又是什么？ RL价值学习方法动态规划（Dynamic Programming）是一种解决复杂问题的算法，...

2018-03-17 23:56:21 1056

原创机器学习方法篇(24)------理解RL中的MDP

● 每周一言珍惜当下，是对未来最好的承诺。导语上一节介绍了增强学习的一些基本概念，并提到了增强学习被广泛应用的各种场景。那么，增强学习在这些应用当中到底是如何起作用的？换言之，增强学习的优化目标是什么？ MDP 我们知道， AlphaGo的核心技术是增强学习，我们不妨先仔细想一个问题：对于围棋对弈过程中的每一回合，落子之法究竟受到哪些因素的影响？抛开人类棋手可能受到的各种情...

2018-03-10 22:33:45 1800

原创机器学习方法篇(23)------增强学习入门

● 每周一言别让梦想的附属品喧宾夺主。导语在小斗去年五月份写的 AlphaGo技术剖析：揭开围棋大脑的神秘面纱这篇介绍AlphaGo的文章中讲到，AlphaGo之所以能战胜人类顶尖的围棋手，主要是增强策略网络的功劳。而增强策略网络的核心技术，便是增强学习。那么，增强学习到底是什么？增强学习增强学习（Reinforcement Learning），又名强化学习，和监督学...

2018-03-04 17:34:37 684

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 机器学习方法篇(25)------RL价值学习方法

原创 机器学习方法篇(24)------理解RL中的MDP

原创 机器学习方法篇(23)------增强学习入门

空空如也

空空如也

原创机器学习方法篇(25)------RL价值学习方法

原创机器学习方法篇(24)------理解RL中的MDP

原创机器学习方法篇(23)------增强学习入门