强化学习论文阅读笔记（一）——强化学习研究综述_高阳

最新推荐文章于 2022-09-09 20:21:48 发布

Star_Drift0

最新推荐文章于 2022-09-09 20:21:48 发布

阅读量2k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Star_Drift0/article/details/100574650

版权

强化学习研究综述_高阳

目录

强化学习研究综述_高阳

一、与其他机器学习对比

三、最优搜索型强化学习算法

四、经验强化型强化学习算法

五、部分感知

六、函数估计

七、多Agent强化学习

八、符号学习和强化学习偏差

九、强化学习应用

一、与其他机器学习对比

vs 监督学习：无需训练集，在线学习
vs 规划技术：无需构造复杂的状态图，强调行为与环境交互
vs 自适应控制技术：有共同奖赏函数形式，不要求确定动态系统模型

二、分类

最优搜索型：获得最优策略，选择搜索未知状态和动作，长期性
经验强化型：获得策略性能改善，利用以获得的可以产生高回报的动作状态，短期性
面对环境：马尔可夫型&非马尔可夫型
面临任务：非顺序型任务&顺序型任务

非顺序型：动作获取环境奖赏，不影响后继动作和状态

顺序型：动作影响未来状态和未来奖赏

三、最优搜索型强化学习算法

环境为马尔可夫型，顺序型强化学习：马尔可夫决策过程建模

T函数和R函数未知

采用技术：迭代技术调整当前状态和下一状态的值函数估值

模型无关法：不学习马尔可夫决策模型知识（T函数和R函数），直接学习最优策略

TD算法（蒙特卡罗思想+动态规划思想）

①无需系统模型，从Agen

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
强化学习论文阅读笔记（一）——强化学习研究综述_高阳

强化学习研究综述_高阳目录强化学习研究综述_高阳一、与其他机器学习对比二、分类三、最优搜索型强化学习算法四、经验强化型强化学习算法五、部分感知六、函数估计七、多Agent强化学习八、符号学习和强化学习偏差九、强化学习应用一、与其他机器学习对比vs 监督学习：无需训练集，在线学习 vs 规划技术：无需构造复杂的状态图，强调行为与环境交互 ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。