斯坦福CS234增强学习——(1)简介
增强学习概述
增强学习的基本要素
增强学习的关键所在,尤其是第2,3点是将增强学习与其他机器学习进行区分的重要因素。如下图所示,分别对其进行了阐述。这里我们定义了policy的含义:policy是指从过去的经验到决策行为的一种映射,较为严格的形式是,给定状态下的动作分布(当已知状态后,应该采取什么样的行动)。
增强学习与其他机器学习方法的区别
关于模仿学习
在不确定性下的时序决策(sequential decision making under uncertainty)
一些简单的例子
有关reward的一个小问题
我们忽略学生主动学习的可能性,且认为加法更加简单,则在这种前提下,若采用上述的reward策略,则agent会给学生愈发简单的加法题来获得更多的reward,但是这显然是不对的,所以一定要恰当的选择reward。
机器教学
机器教学的一个想法就是有两个intelligent agent且知道各自在对对方进行教学则会发生什么,下面给出一个经典的例子:
图中由n个数据点,进行二分类,如果自己想找到进行分类的线,通过策略性地要求人们标记出一些点,需要logn的复杂度;如果已知由另一个agent进行教学,则O(1)复杂度即可,因为教学者会标出来+与-的边缘,从而直接确定分类的线。
关于增强学习流程图中的一些定义
agent只接触了world的一部分,比如作为一个人,眼睛只能看一部分世界,永远看不到后脑勺。
马尔可夫假设
(个人理解)显然两个例子都不是Markov state,因为(1)不同吃药的序列动作会导致血压的不同变化情况(2)推荐的商品会影响人们浏览商品的意图。即涉及到了历史情况,而非仅仅是当前状态。
完全观察马尔可夫决策过程(MDP)
部分观察马尔可夫决策过程(POMDP)
如打扑克的过程,看不到其他人手中的牌,但是可以看到自己的牌和已经打出的牌,并据此做出决策。
时序决策过程的类型
Bandit
MDP和POMDP
World改变的特点
我们可以认为只要有足够好的模型就可以将过程建立为确定性的,但是由于很难做到,我们通常将模型近似建立为随机的。
增强学习算法的组成
模型
reward取期望是因为采取acttion可能到达不同的state,有一个关于state的分布,对这个分布取一个期望。
策略(policy)
价值(value)
关于RL agent