强化学习研究综述_高阳
目录
一、与其他机器学习对比
- vs 监督学习:无需训练集,在线学习
- vs 规划技术:无需构造复杂的状态图,强调行为与环境交互
- vs 自适应控制技术:有共同奖赏函数形式,不要求确定动态系统模型
二、分类
- 最优搜索型:获得最优策略,选择搜索未知状态和动作,长期性
- 经验强化型:获得策略性能改善,利用以获得的可以产生高回报的动作状态,短期性
- 面对环境:马尔可夫型&非马尔可夫型
- 面临任务:非顺序型任务&顺序型任务
非顺序型:动作获取环境奖赏,不影响后继动作和状态
顺序型:动作影响未来状态和未来奖赏
三、最优搜索型强化学习算法
环境为马尔可夫型,顺序型强化学习:马尔可夫决策过程建模
T函数和R函数未知
采用技术:迭代技术调整当前状态和下一状态的值函数估值
- 模型无关法:不学习马尔可夫决策模型知识(T函数和R函数),直接学习最优策略
TD算法(蒙特卡罗思想+动态规划思想)
①无需系统模型,从Agen