什么是强化学习?
强化学习(reinforcement learning)是一种重要的机器学习方法。所谓强化学习就是智能体从环境到行为映射的学习,目标是最大化期望积累奖励。强化学习广泛应用于无人驾驶汽车,棋类游戏和机器人等领域当中。强化学习不属于监督学习,也不属于非监督学习。
基本概念
阶段性任务:智能体与环境的互动在一个特定的时间步T结束
连续性任务:智能体一直与环境互动没有限制
强化学习目标:最大化期望积累奖励 即Gt = Rt+1 + Rt+2 +Rt+3 +Rt+4 +...
由于我们希望智能体更关注当前获得的奖励,所以将上式改进为折扣奖励
即Gt = Rt+1 + γRt+2 +γ²Rt+3 +γ³Rt+4 +... 其中γ∈[0,1]
γ越小,智能体越关注当前获得的奖励,γ越大,智能体越关注未来所能获得的奖励
强化学习任务通常用MDP(马尔科夫决策流程)来描述
主要包括:① 有限状态集合S
② 有限动作集合A
③ 有限奖励集合R
④ 环境的一步动态特性 P(s',r|s,a) = P(St+1 = s',Rt+1 = r|St = s,At = a) for all s,s',and r
其中有限MDP:状态空间S和动作空间A都必须使有限的
对于有限MDP,解决强化问题主要有动态规划,蒙特卡罗方法和时间差分方法。
一、动态规划
在动态规划设置中,智能体完全了解环境特性的马尔科夫决策流程(MDP),比强化学习简单很多,强化学习中智能体需要与环境互动来获得MDP。
那么如何对策略π进行评估?——采用状态值函数Vπ(S),对于状态S的状态值函数是指从该状态开始,每一步都遵循策略π所获得的折扣奖励Gt。
计算状态值函数要用到贝尔曼方程 vπ(s)=Eπ[R