- 博客(3)
- 收藏
- 关注
原创 机器学习方法篇(25)------RL价值学习方法
● 每周一言 对待别人的轻视,最好的回击是站在更高的位置。 导语 上一节讲了如何理解增强学习中的马尔科夫决策过程,并举了具体的例子来描述其求解方法,对算法熟悉的人或许已经看出上节示例中使用的方法是动态规划学习法。那么,除了动态规划法,增强学习的价值学习方法还有哪些?这些方法的不同之处又是什么? RL价值学习方法 动态规划(Dynamic Programming)是一种解决复杂问题的算法,...
2018-03-17 23:56:21 1056
原创 机器学习方法篇(24)------理解RL中的MDP
● 每周一言 珍惜当下,是对未来最好的承诺。 导语 上一节介绍了增强学习的一些基本概念,并提到了增强学习被广泛应用的各种场景。那么,增强学习在这些应用当中到底是如何起作用的?换言之,增强学习的优化目标是什么? MDP 我们知道, AlphaGo的核心技术是增强学习,我们不妨先仔细想一个问题:对于围棋对弈过程中的每一回合,落子之法究竟受到哪些因素的影响? 抛开人类棋手可能受到的各种情...
2018-03-10 22:33:45 1800
原创 机器学习方法篇(23)------增强学习入门
● 每周一言 别让梦想的附属品喧宾夺主。 导语 在小斗去年五月份写的 AlphaGo技术剖析:揭开围棋大脑的神秘面纱 这篇介绍AlphaGo的文章中讲到,AlphaGo之所以能战胜人类顶尖的围棋手,主要是 增强策略网络 的功劳。而增强策略网络的核心技术,便是增强学习。那么,增强学习到底是什么? 增强学习 增强学习(Reinforcement Learning),又名强化学习,和监督学...
2018-03-04 17:34:37 684
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人