机械学习-深度学习(ReinforcementLernen)

纲要

1.问题设置:MDP(Markov decision process)
2.学习目标:reward(maximale Bewertung)
3.PL中对应的问题的维度//??
4.策略学习(Policy learning)

RL的学习目标(Lernziel RL)

就是通过寻找一个动作序列 a1,...an ,使得最终可以得到最高的评价。
(Finde eine Aktionssequenz a1,...,an ) so dass dadurch die maximale Bewertung aufgesammelt wird.)

RL的一般应用

  1. 控制机器人
  2. 游戏 :像围棋啊什么的
  3. 生产线优化或计划优化

Markov decision process(deterministisch)

五元式表示(非确定性的):
指以俄国数学家Andrei Andreijewitsch Markov的名字命名的一种决策模型。一般用五元式(S,A,T,r, p0 )表示:
S:表示状态集
A:表示动作集合(Action)
T:是一个映射 T:S*A*S [0,1]。T(s,a,s’)=p(s’|s,a)表示从状态s通过动作a到达状态s’的概率
r:就是reward的意思了,表示映射:S*A*S R。
p0 :表示开局分布,就是初始状态为对应状态的概率。
公式表示(确定性的):
在这里我们这样表示状态的转化(一般可通过观察获得)

δ:(SA)Sδ:(st,at)=st+1

我们用下面式子表示reward
r:(SA)Rr(st,at)=rt

另外这个模型最重要的一个假设是:从状态s成功过渡到状态s’的概率,只由状态s决定,而与状态s之前的状态无关。//贝叶斯吗??

Policy learning


S1r1a1S2...rn1an1Sn

寻找(最优)目标方法(Zielfunction,target function)
π:SA,   π(st)=at

使得累积reward(akkumulierte Bewertung)
Vπ(St)=rt+γrt+1+γrt+2+...=i=0γirt+i

最大。
其中0<= γ <= 1,为reward的权值(Diskontierungsfaktor)
γ 为零,则表示当前动作无敌关键。
要求 γ 大于零是为了使不会忽略后面的reward
要求 γ 小于一是为了收敛性考虑。
//但是注意到这货的取值范围是可以等于一的,这是为何??
(Ann.:absorbierender Terminalzustand:Alle Aktionen führen kostenfrei wieder in den Zustand???)

最优策略(Optimale Strategie)

最优目标函数(optimale Zielfunktion):

π(s)=argmaxπVπ(s),s

那么对应的最大的累积reward就是:
V(s)=Vπ(s)

可以通过递归进行定义:
V(St)=rt+γV(St+1)

那么我们的问题就是:如何获得 V(s)

Simple Temporal Difference Learning I(Simple Value Iteration)

idea:
V^(s) V(s) 的估计值
π(s)=argmaxa

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值