机械学习-深度学习(ReinforcementLernen)

最新推荐文章于 2023-01-16 23:33:04 发布

尤曦

最新推荐文章于 2023-01-16 23:33:04 发布

阅读量2k

点赞数

分类专栏： ML 文章标签：深度学习

纲要

1.问题设置：MDP(Markov decision process)
2.学习目标：reward(maximale Bewertung)
3.PL中对应的问题的维度//??
4.策略学习(Policy learning)

RL的学习目标(Lernziel RL)

就是通过寻找一个动作序列 $a_1,...a_n$ ，使得最终可以得到最高的评价。
(Finde eine Aktionssequenz $a_1,...,a_n$ ) so dass dadurch die maximale Bewertung aufgesammelt wird.)

RL的一般应用

控制机器人
游戏：像围棋啊什么的
生产线优化或计划优化

Markov decision process(deterministisch）

五元式表示(非确定性的)：
指以俄国数学家Andrei Andreijewitsch Markov的名字命名的一种决策模型。一般用五元式(S,A,T,r, $p_0$ )表示：
S：表示状态集
A：表示动作集合(Action)
T：是一个映射 T:S*A*S $\rightarrow$ [0,1]。T(s,a,s’)=p(s’|s,a)表示从状态s通过动作a到达状态s’的概率
r：就是reward的意思了，表示映射：S*A*S $\rightarrow$ R。
$p_0$ ：表示开局分布，就是初始状态为对应状态的概率。
公式表示(确定性的)：
在这里我们这样表示状态的转化(一般可通过观察获得)

δ : (S * A) \to S δ : (s t, a t) = s t + 1

$\delta:(S*A) \rightarrow S\\ \delta:(s_t,a_t)=s_{t+1}$
我们用下面式子表示reward

r : (S * A) \to R r (s t, a t) = r t

$r:(S*A)\rightarrow R\\ r(s_t,a_t)=r_t$
另外这个模型最重要的一个假设是：从状态s成功过渡到状态s’的概率，只由状态s决定，而与状态s之前的状态无关。//贝叶斯吗??

Policy learning

$\require{AMScd}$

S 1 - \to - - - r 1 a 1 S 2 - \to - - - - . . . - \to - - - r n - 1 a n - 1 S n

$\begin{CD} S_1 @>a_1>r_1>S_2@>>>...@>a_{n-1}>r_{n-1}>S_n \end{CD}$
寻找(最优)目标方法(Zielfunction,target function)

π : S \to A, π (s t) = a t

$\pi:S\rightarrow A, \ \ \ \pi(s_t)=a_t$
使得累积reward(akkumulierte Bewertung)

V π (S t) = r t + γ r t + 1 + γ r t + 2 + . . . = \sum i = 0 \infty γ i r t + i

$V^{\pi}(S_t)=r_t+\gamma r_{t+1}+\gamma r_{t+2}+...=\sum^\infty_{i=0}\gamma^ir_{t+i}$
最大。
其中0<=

γ $\gamma$ <= 1,为reward的权值(Diskontierungsfaktor)
若

γ $\gamma$ 为零，则表示当前动作无敌关键。
要求

γ $\gamma$ 大于零是为了使不会忽略后面的reward
要求

γ $\gamma$ 小于一是为了收敛性考虑。
//但是注意到这货的取值范围是可以等于一的，这是为何？？
(Ann.:absorbierender Terminalzustand:Alle Aktionen führen kostenfrei wieder in den Zustand？？？)

最优策略(Optimale Strategie)

最优目标函数(optimale Zielfunktion)：

π * (s) = a r g m a x π V π (s), \forall s

$\pi^*(s)=arg max_\pi V^\pi(s), \forall s$
那么对应的最大的累积reward就是：

V * (s) = V π * (s)

$V^*(s)=V^{\pi^*}(s)$
可以通过递归进行定义：

V * (S t) = r t + γ V * (S t + 1)

$V^*(S_t)=r_t+\gamma V^*(S_{t+1})$
那么我们的问题就是：如何获得

V∗(s) $V^*(s)$

Simple Temporal Difference Learning I(Simple Value Iteration)

idea:
$\overset{\text{^}}{V^*}(s)$ 是 $V^*(s)$ 的估计值
π∗(s)=argmaxa

最低0.47元/天解锁文章

尤曦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机械学习-深度学习(ReinforcementLernen)

纲要1.问题设置：MDP(Markov decision process) 2.学习目标：reward(maximale Bewertung) 3.PL中对应的问题的维度//?? 4.策略学习(Policy learning)RL的学习目标(Lernziel RL)就是通过寻找一个动作序列a1,...ana_1,...a_n，使得最终可以得到最高的评价。 (Finde eine Aktion
复制链接

扫一扫