reinforcement learning,增强学习:Value Function Approximation



上次内容:

Model-Free Control。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。

希望在未给出MDP的情况下,进行Control(理想情况是policy也没有给出,Optimise the value function of an unknown MDP)。

Model-Free Control有两大方法:on-policy Learning和off-policy Learning;其中,on-policy Learning又分为on-policy MC和on-policy TD。

optimal MDP的两种方法:policy iteration和value iteration。policy iteration:在MDP已知而policy未知的情况下,采取一个随机policy π,然后evaluate 该policy π,之后对π进行improve得到较优的policy π',然后对π'进行evaluation,然后再improve,循环该过程。=====》这就解决了policy π未知的问题(随机一个π,然后循环evaluation和improvement)。

model-free prediction(evaluation)的两种方法:Monte-Carlo Learning和Temporal-Difference Learning;两者本质都是采样,前者必须采样到terminal state得到平均的return(对真实Gt的近似),后者只向前采样一步进行on-line的更新。=====》这就解决了MDP未知的问题(采样即可)。

综合上面两者,Model-Free Control的假设下(policy未知,MDP未知),可以:随机一个policy π,使用MC或者TD的方法(采样得到近似Gt,而不是真正的Gt)进行policy evaluation,然后进行greedy policy improvement,然后循环该过程!=====》称该过程为Model-Free Policy Iteration。





本次内容:

之前我们讲的内容都假设S、A是有限的。即便是在Model-Free的假设下,S、A也都是采样得到的(可能有些样本你永远得不到)。

那么,对于真实的情况,1)S、A是有限的,但是空间特别大,不可能计算所有的情况;2)S、A本身就是无限的。。。。

面对真实情况的两大挑战,如何scale up the model-free methods forpredictionand controlfrom the last two lectures 是本节要考虑的内容。

解决方案是:Estimate value function withfunction approximation











Value Function Approximation

1)常见的几种形式


目测第一种和第三种比较常用(第三种常用是因为,对于action,不好用特征(feature)去描述,所以对于每个action单独建模;但是action也是很多种的时候呢???)

2)常用的Function

要求differentiable ,常用的有

Linear combinations of features
Neural network


3)训练方法的要求

require a training method that is suitable for non-stationary,non-iiddata
有incremental的、batch的。




State-Value Function Approx. By Stochastic Gradient Descent :

1)首先把一个状态表示成feature vector的形式:

X(S)=( X(S)_1, X(S)_2, ..., X(S)_n )

例如:

Distance of robot from landmarks
Trends in the stock market
Piece and pawn configurations in chess


2)假如使用Linear Value Function Approximation,则有:



3)实际RL中,常用State-Value Functionprediction

IncrementalPrediction Algorithms如下:




Action-Value Function Approx. By Stochastic Gradient Descent :

1)首先把一对(状态,动作)表示成feature vector的形式:

X(S,A)=( X(S,A)_1, X(S,A)_2, ..., X(S,A)_n )


2)假如使用Linear Value Function Approximation,则有:



3)实际RL中,常用Action-Value Functioncontrol

Incremental control Algorithms如下:



4)control框架下的完整optimal过程:


用大白话来说就是:先random一个policy,然后使用MC/TD的方法来调整w得到approximation的value-function;基于该approximation的value-function,进行epo-greedy的policy improvement;然后循环迭代。

所以说,value-function approximation只做policy evaluation(prediction),policy improvement(optimal)还需要单独的策略比如epo-greedy。








评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值