自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 策略梯度算法

策略梯度算法这一课我觉得还挺抽象的,有些也听不是太懂,可能是因为这一课的视频里帅帅的David没有出现……只有PPT,而且配合声音切换得不太好,看着很是不爽。不过看完了还是要来整理啊,不然像我这种不现学现用的,过几天就忘了hh,岂不是白看~好啦言归正传!策略梯度的思想在上一篇文章中已经简要介绍过,可以用来快速逼近函数值,这一课就主要来介绍一下用策略梯度优化的核心思想和常用的三种方法,由浅入深是Fi...

2018-03-21 19:27:17 9448 2

原创 值函数近似——Large MDPs 的福音

对于具有大量状态空间和动作空间的MDPs,前面讲到的一些处理方法就不再适用了,可能会引起维度爆炸之类的问题。一个简单的方法就是用带有权重w参数的一个关于s的函数来表示近似的Vπ(s)或者qπ(s,a),以此建立值函数逼近器,这样我们就可以估算任何一个函数的值,并将其应用于状态数据库中,从而压缩了状态数据库的存储量。Value Function Approximation的思想大致就是如此。一、随机...

2018-03-18 18:36:08 2011 1

原创 蒙特卡罗学习之策略迭代(21点游戏的延续)

上一趴讲的是无模型预测中用蒙特卡罗思想来进行策略评估,即离线评价某个特定策略的表现,但未进行策略的优化。这一趴对前一篇博文做一个完善和延续,因为在一个问题或者游戏中,你光会评价自己的策略好坏是远远不够的,固守成规没有用,我们得让自己变得聪明,找到最明智最优的策略,仍然采用蒙特卡罗思想,不同的是需要在策略评估后做一个策略的迭代,在一个内部循环中找到可能的最优解。这从一个预测问题上升到了控制问题,当然...

2018-03-12 11:13:53 2971 1

原创 蒙特卡罗学习之策略评估(附实例及代码)

从本趴开始将讲述免模型控制,在没人告诉我们环境信息的情况下,agent如何找到行动的最优方案。第一种方法就是蒙特拉罗学习,它是在不知道环境模型的情况下,由信息遍历整个状态链直到终端状态之后通过观察其回报值来评估价值,完成无模型预测,得到的是价值函数。一、Condition蒙特拉罗学习方法只适用于片段化的MDP过程,因为它需要到达终止状态才能回溯得到价值函数的评估值。二、Goal蒙特拉罗学习的目的是...

2018-03-09 17:08:30 7262

原创 大道至简——AlphaGo Zero的减法生存

AlphaGo主要包括四个部分:策略网络、价值网络、快速走子网络、蒙特卡罗树搜索,其中包含三个神经网络需要KGS专家棋谱数据集和数月训练时间。AlphaGo Zero在上述基础上降低神经网络结构复杂性,将原先两个独立结构的策略网络和价值网络合为一体并舍弃了快速走子网络,形成一个共享神经网络,在该共享神经网络中,从输入层到中间层的权重是完全共享的,最后的输出阶段分为策略函数输出和价值函数输出。此外,...

2018-02-26 11:40:31 916

原创 揭开AlphaGo不再神秘的面纱

AlphaGo战胜人类职业围棋选手李世石已经是2016年的事儿了,而现在是2018年2月,这则轰动一时的新闻让更多的普通人见识到人工智能的潜力。自那以后,无数业界大神对AlphaGo进行了各个角度的剖析和解读,2017年10月,AlphaGo Zero的问世更使AlphaGo变得不再新鲜和神秘。受一篇大神文章的启迪,今天我也来揭一揭这块不再神秘的面纱,也算是对自己过去一周学习的总结和整理。读者放心...

2018-02-10 10:11:15 499

原创 Reinforcement Learning——DP

动态规划是用来求解MDP的方法之一,动态的含义是问题具有时间或顺序特性,规划的含义是用程序来优化程序,也就是指优化策略。动态规划算法就是两种思想的结合,它把一个复杂的问题分割成许多小的问题,在解决了这些小问题之后原本复杂的问题就随之迎刃而解。在增强学习中,它主要是利用value function来搜索最优策略,利用Bellman方程作为更新规则来计算近似的期望value function。只要我们找到了最优的value function,就不难找到最优策略。

2017-12-06 17:01:44 542 1

原创 Reinforcement Learning——MDP

MDP 几乎所有的增强学习的问题都可以通过一些方式形式化为Markov Decision Process.

2017-12-02 21:17:22 866 1

原创 Reinforcement Learning ——概念浅析

有点啰嗦的前言学习强化学习已有一个余月,主要方式为看David Silver的讲座视频+Sutton&Andrew写的Reinforcement Learning,全是英文原版的,因此我感觉自己现在的英文水平继大一以来迎来了新的巅峰。另外对于学习笔记,我更喜欢纸质的,所以至今为止,笔记本已用去一半,博客却还一片荒凉。今晚因师哥关注错我的账号引发的小插曲,心血来潮,emm....

2017-11-26 10:05:03 497

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除