Reinforcement Learning
一、Reinforcement Learning的基本概念及原理
强化学习是一种非监督式学习方法。其主要作用是通过样本数据(sanple data),训练出最优的决策方案。它可以看做是对Markov Decision Process(MDP)进行决策优化的学习算法。MDP
模型中的变量有:
S: 状态集合(states);
A: 决策集合(actions);
P
sa:在状态为s时采取a决策产生的状态的概率分布,如P
sa(s')表示从s采取a决策到达s'的概率;
γ∈[0,1): 折扣系数(discount factor)
R:奖励函数(reward function),认为只与当前状态有关,即R(s)
MDP示意如下:
s0
另外,定义以下变量:
V(s):价值函数(value function)
π:决策函数(状态和决策之间的映射关系)如a=π(s)表示
学习的目标是在当前状态下找出最优的决策方案,使得未来所有的期望奖励最大,未来的期望奖励为:
E[R(s0)+
γ
*
R(s1)+
γ
2
*
R(s2)+...]
定义
V
π
(s)=
E[R(s0)+
γ
*
R(s1)+
γ
2
*
R(s2)+... | s0=s, π],则
V
π
满足Bellman equations:
V
π
(s)=
R(s)+γ
∑
s'
∈S
Ps
π
( s')V
π
( s')