自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

对半独白

纯粹的个人分享

  • 博客(3)
  • 收藏
  • 关注

原创 机器学习方法篇(25)------RL价值学习方法

● 每周一言 对待别人的轻视,最好的回击是站在更高的位置。 导语 上一节讲了如何理解增强学习中的马尔科夫决策过程,并举了具体的例子来描述其求解方法,对算法熟悉的人或许已经看出上节示例中使用的方法是动态规划学习法。那么,除了动态规划法,增强学习的价值学习方法还有哪些?这些方法的不同之处又是什么? RL价值学习方法 动态规划(Dynamic Programming)是一种解决复杂问题的算法,...

2018-03-17 23:56:21 1056

原创 机器学习方法篇(24)------理解RL中的MDP

● 每周一言 珍惜当下,是对未来最好的承诺。 导语 上一节介绍了增强学习的一些基本概念,并提到了增强学习被广泛应用的各种场景。那么,增强学习在这些应用当中到底是如何起作用的?换言之,增强学习的优化目标是什么? MDP 我们知道, AlphaGo的核心技术是增强学习,我们不妨先仔细想一个问题:对于围棋对弈过程中的每一回合,落子之法究竟受到哪些因素的影响? 抛开人类棋手可能受到的各种情...

2018-03-10 22:33:45 1800

原创 机器学习方法篇(23)------增强学习入门

● 每周一言 别让梦想的附属品喧宾夺主。 导语 在小斗去年五月份写的 AlphaGo技术剖析:揭开围棋大脑的神秘面纱 这篇介绍AlphaGo的文章中讲到,AlphaGo之所以能战胜人类顶尖的围棋手,主要是 增强策略网络 的功劳。而增强策略网络的核心技术,便是增强学习。那么,增强学习到底是什么? 增强学习 增强学习(Reinforcement Learning),又名强化学习,和监督学...

2018-03-04 17:34:37 684

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除