强化学习
强化学习通常用马尔可夫决策过程(Markov Decision Process)MDP
E = < X , A , P , R > E = <X,A,P,R> E=<X,A,P,R>
X:state enviroment
A:action
P:move function
R:reward
K-摇臂赌博机
最大化单步奖赏,仅考虑一步操作
最大化单步奖赏需要考虑两个方面:一是需要知道每一个动作所带来的奖赏。二是要执行奖赏最大的动作
仅探索(exploration-only):若仅仅为了获知每一个摇臂的期望奖赏,将所有的尝试机会平均分配给每一个摇臂,最后以每一个摇臂各自的平均吐币率作为其奖赏期望的近似
估算
仅利用(exploitation-only):若仅仅为了执行奖赏最大的动作,按照目前最优的摇臂,若多个摇臂同为最优,则从中随机选择一个。
ϵ − 贪心 \epsilon -\text{贪心} ϵ−贪心
该方法基于一个概率对探索以及利用进行折中,每次尝试的时候,以 ϵ \epsilon ϵ的概率进行探索,即以均匀概率随机选择一个摇臂,以 1 − ϵ 1 - \epsilon 1−ϵ 的概率进行利用,即选
择当前平均奖赏最高的摇臂。
增量式计算(类似于动态规划)
Q n ( k ) = 1 n [ ( n − 1 ) ∗ Q n − 1 ( k ) + v n ] Q_n(k) = \frac{1}{n}[(n-1) * Q_{n-1}(k) + v_n] Qn(k)=n1[(n−1)∗Qn−1(k)+vn]
softmax
softmax算法基于当前已知的摇臂平均奖赏对探索和利用进行折中,若各个摇臂的平均奖赏相当,则选取的各个摇臂的概率也相当,若某些摇臂的平均奖赏明显高于其他摇臂,则他
们被选取的概率也明显增高。
有模型学习
策略评估
V π ( x ) V^{\pi}(x) Vπ(x)
Q π ( x , a ) Q^{\pi}(x,a) Qπ(x,a)
MDP具有马尔可夫性质,即系统的下一个状态仅由当前时刻的状态决定,类似于动态规划的思想
策略改进
对于某一个策略的累积奖赏进行评估后,若发现它并非最优,则当然希望对其进行改进,理想的策略应该是最大化累积奖赏,只能用于当策略空间为无约束条件
免模型学习
蒙特卡罗强化学习
一种直接的想法是进行多次采样,然后求取平均累积奖赏作为期望累计奖赏的近似
时序差分学习
蒙特卡罗强化学习算法通过考虑采样轨迹,克服了模型未知给策略估计造成的困难,此类算法需要完成一个采样轨迹后更新策略的值的估计,而我们更希望她类似于动态规划的思想,基于前一个状态就可以推出当前状态的状态。这里的主要问题就是蒙特卡罗强化学习没有充分利用强化学习任务的MDP结构。时序差分(TD)学习则结合了动态规划与蒙特卡罗方法的思想,能够做到高效的免模型学习。
值函数近似学习
之前的强化学习都是在有限的状态空间中进行相关的策略学习的,但是,在现实生活中,通常情况下,状态空间通常是无限的,这时候就要值函数近似学习。不是对状态空间进行离散化,而是直接对连续状态空间的值函数进行学习
模仿学习
直接模仿学习
直接模仿人类专家的(状态-动作)对
逆强化学习
在很多的任务中,设计奖赏函数往往相当困难,从人类专家提供的实例数据中反推出奖赏函数有助于解决问题。