anxian8210-CSDN博客

转载简析Monte Carlo与TD算法的相关问题

Monte Carlo算法是否能够做到一步更新，即在线学习？答案显然是不能，如果可以的话，TD算法还有何存在的意义？MC算法必须要等到episode结束后才可以进行值估计的主要原因在于对Return（或是估计目标）的定义与TD算法不同。强化学习中所估计的状态动作对价值实质上就是在某一策略下，以这个状态动作对为起点产生的样本轨道的奖励之和（也可是带折扣系数的和）的期望。假设有一条样本轨...

2019-04-15 14:37:00 172

转载【ML系列】简单的二元分类——Logistic回归

对于了解机器学习中二元分类问题的来源与分析，我认为王树义老师这篇文章讲的非常好，通俗且易懂：http://blog.sciencenet.cn/blog-377709-1121098.html但王树义老师的这篇文章并未详细的展开说明二元分类的具体实现方法，只是在宏观上的一个概述。在阅读这篇文章后，我便心生实现一个简单的二元分类并把前后过程记录下来的念头，所以本篇的主体以算法实现为...

2018-09-15 16:08:00 372

转载【RL系列】SARSA算法的基本结构

SARSA算法严格上来说，是TD(0)关于状态动作函数估计的on-policy形式，所以其基本架构与TD的$v_{\pi}$估计算法（on-policy）并无太大区别，所以这里就不再单独阐述之。本文主要通过两个简单例子来实际应用SARSA算法，并在过程中熟练并总结SARSA算法的流程与基本结构。强化学习中的统计方法（包括Monte Carlo，TD）在实现episode task时，...

2018-08-03 21:39:00 394

转载【RL系列】On-Policy与Off-Policy

强化学习大致上可分为两类，一类是Markov Decision Learning，另一类是与之相对的Model Free Learning分为这两类是站在问题描述的角度上考虑的。同样在解决方案上存在着两种方法对应着这两类问题描述，即Dynamic Programming(DP)和Stochastic Method，其中DP方法可以分为Policy Iteration与Value It...

2018-07-27 11:15:00 388

转载【RL系列】从蒙特卡罗方法步入真正的强化学习

蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似，两者皆是通过大量的实验然后估计每个状态动作的平均收益。不过两者的区别也是显而易见，Bandit问题比较简单，状态1->动作1->状态1，这个状态转移过程始终是自我更新的过程，而且是一一对应的关系。蒙特卡罗方法所解决的问题就要复杂一些...

2018-07-23 22:54:00 135

转载【RL系列】蒙特卡罗方法——Soap Bubble

“肥皂泡”问题来源于Reinforcement Learning: An Introduction(2017). Exercise 5.2，大致的描述如下：用一个铁丝首尾相连组成闭合曲线，浸入肥皂泡液，拿起后，可以发现肥皂泡液以这个闭合曲线为边界形成了一个曲面。如何将这个曲面描述出来，便是肥皂泡问题的核心。若想使得肥皂泡液形成一个稳固的曲面，肥皂泡上的每一个点所受到的合力均为...

2018-07-21 12:27:00 440

转载【RL系列】马尔可夫决策过程——Gambler's Problem

Gambler's Problem，即“赌徒问题”，是一个经典的动态编程里值迭代应用的问题。在一个掷硬币游戏中，赌徒先下注，如果硬币为正面，赌徒赢回双倍，若是反面，则输掉赌注。赌徒给自己定了一个目标，本金赢到100块或是输光就结束游戏。找到一个关于本金与赌注之间关系的策略使得赌徒最快赢到100块。状态s = {1, 2, 3...., 99, 100}，动作a = {1, 2, ...

2018-07-18 23:13:00 1171

转载【RL系列】马尔可夫决策过程——Jack‘s Car Rental

本篇请结合课本Reinforcement Learning: An Introduction学习Jack's Car Rental是一个经典的应用马尔可夫决策过程的问题，翻译过来，我们就直接叫它“租车问题”吧。租车问题的描述如下：Jack’s Car Rental Jack manages two locations for a nationwide car rental c...

2018-07-16 19:31:00 1877

转载【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价

请先阅读上两篇文章：【RL系列】马尔可夫决策过程中状态价值函数的一般形式【RL系列】马尔可夫决策过程与动态编程状态价值函数，顾名思义，就是用于状态价值评价（SVE）的。典型的问题有“格子世界（GridWorld）”游戏（什么是格子世界？可以参考：Dynamic programming inPython），高尔夫游戏，这类问题的本质还是求解最优路径，共性是在学习过程...

2018-07-13 20:24:00 1009

转载【RL系列】马尔可夫决策过程中状态价值函数的一般形式

请先阅读上一篇文章：【RL系列】马尔可夫决策过程与动态编程在上一篇文章里，主要讨论了马尔可夫决策过程模型的来源和基本思想，并以MAB问题为例简单的介绍了动态编程的基本方法。虽然上一篇文章中的马尔可夫决策过程模型实现起来比较简单，但我认为其存在两个小问题：数学表达上不够简洁状态价值评价型问题与动作价值评价型问题是分离的，形式上不够统一本篇主要来解决第...

2018-07-12 15:50:00 558

转载【测试用】数学公式

$\gamma$$$ \alpha = \sum_{i = 1}^{N} \left(M_{i} + \frac{x_i}{p} \right) $$转载于:https://www.cnblogs.com/Jinyublog/p/9294065.html

2018-07-11 13:45:00 100

转载【RL系列】MDP与DP问题

推荐阅读顺序：Reinforcement Learning: An Introduction(Drfit)有限马尔可夫决策过程动态编程笔记Dynamic programming inPython本篇马尔可夫决策过程马尔可夫决策（MDP）过程为强化学习（RL）提供了理论基础，而动态编程（DP）为马尔可夫决策过程提供了一种实现的方法。所以将这两个部分结...

2018-07-11 13:25:00 524

转载【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略

本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法，涉及理论部分较少，所以请先阅读Reinforcement Learning: An Introduction(Drfit)的2.7，2.8的内容。为了更深入一点了解UCB策略，可以随后阅读下面这篇文章：【RL系列】Multi-Armed Bandit笔记补充（二）—— ...

2018-07-04 10:21:00 386

转载【RL系列】Multi-Armed Bandit笔记补充（二）

本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充，主要探讨UCB方法的由来与相关公式的推导。UCB是一种动作选择策略，主要用来解决epsilon-greedy在选择时的低效率问题。对于解释UCB的使用机理上，我认为下面这篇文章写的还不错，深入浅出，只不过在公式推导上有一点点问题：Multi-Armed Bandit: UCB (Up...

2018-07-02 20:35:00 128

转载【RL系列】Multi-Armed Bandit笔记补充（一）

在此之前，请先阅读上一篇文章：【RL系列】Multi-Armed Bandit笔记本篇的主题就如标题所示，只是上一篇文章的补充，主要关注两道来自于Reinforcement Learning: An Introduction的课后习题。第一题为Exercise 2.5 (programming)，主要讨论了Recency-Weighted Average算法相较于Sample ...

2018-07-02 14:07:00 103

转载【RL系列】Multi-Armed Bandit问题笔记

这是我学习Reinforcement Learning的一篇记录总结，参考了这本介绍RL比较经典的Reinforcement Learning: An Introduction (Drfit)。这本书的正文部分对理论的分析与解释做的非常详细，并且也给出了对结论详尽的解析，但是把问题的解决和实现都留到到了课后题，所以本篇文章主要侧重与对Multi-Armed Bandit问题解决算法的实...

2018-06-29 10:56:00 183

转载 Python+Opencv实现把图片转为视频

1. 安装Opencv包在Python命令行输入如下命令（如果你使用的Anaconda，直接进入Anaconda Prompt键入命令即可。如果你不知道Anaconda是什么，可以参考王树义老师的文章和视频：如何安装Python运行环境Anaconda）$ pip install opvencv-python2. 实现代码import osimpor...

2018-05-31 17:52:00 154

转载从一个简单的寻路问题深入Q-learning

这第一篇随笔实际上在我的科学网博客上是首发，我重新拿到博客园再发一次是希望以此作为我学习Q-learning的一个新的开始。以后这边主技术，科学网博客主理论。我也会将科学网那边技术类的文章转过来的。希望大家关注一下：http://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&id=1116209...

2018-05-31 12:20:00 306