纲要
1.问题设置:MDP(Markov decision process)
2.学习目标:reward(maximale Bewertung)
3.PL中对应的问题的维度//??
4.策略学习(Policy learning)
RL的学习目标(Lernziel RL)
就是通过寻找一个动作序列 a1,...an ,使得最终可以得到最高的评价。
(Finde eine Aktionssequenz a1,...,an ) so dass dadurch die maximale Bewertung aufgesammelt wird.)
RL的一般应用
- 控制机器人
- 游戏 :像围棋啊什么的
- 生产线优化或计划优化
Markov decision process(deterministisch)
五元式表示(非确定性的):
指以俄国数学家Andrei Andreijewitsch Markov的名字命名的一种决策模型。一般用五元式(S,A,T,r, p0 )表示:
S:表示状态集
A:表示动作集合(Action)
T:是一个映射 T:S*A*S → [0,1]。T(s,a,s’)=p(s’|s,a)表示从状态s通过动作a到达状态s’的概率
r:就是reward的意思了,表示映射:S*A*S → R。
p0 :表示开局分布,就是初始状态为对应状态的概率。
公式表示(确定性的):
在这里我们这样表示状态的转化(一般可通过观察获得)
δ:(S∗A)→Sδ:(st,at)=st+1
我们用下面式子表示reward
r:(S∗A)→Rr(st,at)=rt
另外这个模型最重要的一个假设是:从状态s成功过渡到状态s’的概率,只由状态s决定,而与状态s之前的状态无关。//贝叶斯吗??
Policy learning
S1−→−−−r1a1S2−→−−−−...−→−−−rn−1an−1Sn
寻找(最优)目标方法(Zielfunction,target function)
π:S→A, π(st)=at
使得累积reward(akkumulierte Bewertung)
Vπ(St)=rt+γrt+1+γrt+2+...=∑i=0∞γirt+i
最大。
其中0<= γ <= 1,为reward的权值(Diskontierungsfaktor)
若 γ 为零,则表示当前动作无敌关键。
要求 γ 大于零是为了使不会忽略后面的reward
要求 γ 小于一是为了收敛性考虑。
//但是注意到这货的取值范围是可以等于一的,这是为何??
(Ann.:absorbierender Terminalzustand:Alle Aktionen führen kostenfrei wieder in den Zustand???)
最优策略(Optimale Strategie)
最优目标函数(optimale Zielfunktion):
π∗(s)=argmaxπVπ(s),∀s
那么对应的最大的累积reward就是:
V∗(s)=Vπ∗(s)
可以通过递归进行定义:
V∗(St)=rt+γV∗(St+1)
那么我们的问题就是:如何获得 V∗(s)
Simple Temporal Difference Learning I(Simple Value Iteration)
idea:
V∗^(s) 是 V∗(s) 的估计值
π∗(s)=argmaxa