注:论文写作四项工作
工作一:查阅100篇,挑选30篇,核心参考3-5篇,“看懂”一篇
工作二:提出难点问题,提出新概念。例:多光谱、注意力机制
工作三:修改算法,网络结构、损失函数、步数
工作四:写写写,改改改。图片精修,丰富实验,首句中心。
基于模型的的强化学习是比无模型难很多的问题。
一、状态转移概率
1、马氏决策过程可以利用五元组(S,A,P,r,y)来描述。根据状态转移概率是否已知,可以分为基于模型和基于无模型的强化学习方法。
2、状态转移为什么会不可知?
比如一阶倒立摆,设置状态为位置和角度,动作为左右施加力。状态转移概率可以通过公式计算。
比如高阶倒立摆,同样的状态和动作,状态转移概率基本无法通过公式计算。
所以,状态转移概率不可知的原因:问题的复杂度,环境不能完全观测
二、动态规划
三、基于模型的强化学习可以利用动态规划解决
1、基于模型的强化学习可以利用动态规划解决。
动态指序列状态变化,规划指优化,如线性优化、二次优化、非线性优化。
动态规划分策略迭代、值迭代两种方法
2、值迭代:值迭代是用来估计最优值函数的一种方法。不同于策略迭代,值迭代直接收敛到最优策略和最优值函数。
3、策略迭代:策略评估、策略改进迭代,直到策略收敛。
4、公式推导
累计回报:
状态值函数:
状态行为函数(Q函数):
最优贝尔克曼方程:
转自:增强学习(一)——马尔科夫决策过程(MDP)
四、PILCO
底层:采用高斯过程模型学习状态转移的概率模型。
中层:利用状态转移模型和策略,评估累计回报(类似于损失函数)。
顶层:利用梯度法,对策略的参数更新。
参考文献:https://bigquant.com/community/t/topic/121176 强化学习前沿 第三讲 基于模型的强化学习方法 PILCO及其扩展(二)