强化学习论文阅读笔记(一)——强化学习研究综述_高阳

 

强化学习研究综述_高阳

目录

强化学习研究综述_高阳

一、与其他机器学习对比

二、分类

三、最优搜索型强化学习算法

四、经验强化型强化学习算法

五、部分感知

六、函数估计

七、多Agent强化学习

八、符号学习和强化学习偏差

九、强化学习应用


一、与其他机器学习对比

  • vs 监督学习:无需训练集,在线学习
  • vs 规划技术:无需构造复杂的状态图,强调行为与环境交互
  • vs 自适应控制技术:有共同奖赏函数形式,不要求确定动态系统模型

二、分类

  • 最优搜索型:获得最优策略,选择搜索未知状态和动作,长期性
  • 经验强化型:获得策略性能改善,利用以获得的可以产生高回报的动作状态,短期性
  • 面对环境:马尔可夫型&非马尔可夫型
  • 面临任务:非顺序型任务&顺序型任务

非顺序型:动作获取环境奖赏,不影响后继动作和状态

顺序型:动作影响未来状态和未来奖赏

三、最优搜索型强化学习算法

环境为马尔可夫型,顺序型强化学习:马尔可夫决策过程建模

T函数和R函数未知

采用技术:迭代技术调整当前状态和下一状态的值函数估值

  • 模型无关法:不学习马尔可夫决策模型知识(T函数和R函数),直接学习最优策略

       TD算法(蒙特卡罗思想+动态规划思想)

       ①无需系统模型,从Agen

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值