【ZJU-Machine Learning】强化学习

最新推荐文章于 2024-06-26 10:04:42 发布

SuperSources

最新推荐文章于 2024-06-26 10:04:42 发布

阅读量601

点赞数 1

分类专栏：【ZJU】机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45654306/article/details/113448807

版权

【ZJU】机器学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

强化学习与监督学习的区别：

（1）训练数据中没有标签，只有奖励函数（Reward Function）。
（2）训练数据不是现成给定，而是由行为（Action）获得。
（3）现在的行为（Action）不仅影响后续训练数据的获得，也影响奖励函数（Reward Function）的取值。
（4）训练的目的是构建一个“状态->行为”的函数，其中状态（State）描述了目前内部和外部的环境，在此情况下，要使一个智能体（Agent）在某个特定的状态下，通过这个函数，决定此时应该采取的行为。希望采取这些行为后，最终获得最大的奖励函数值。

而监督学习是通过训练得到一个从数据到标签的映射。

一些定义

在这里插入图片描述

一些假设

在这里插入图片描述

Markov decision Process (MDP)

在这里插入图片描述

待优化目标函数

增强学习中的待优化目标函数是累积奖励，即一段时间内的奖励函数加权平均值：
在这里插入图片描述
在这里，GAMMA是一个衰减项。

Q-Learning

增强学习中已经知道的的函数是：
在这里插入图片描述
需要学习的函数是：

根据一个决策机制（Policy），我们可以获得一条路径：
在这里插入图片描述
定义1：估值函数（Value Function）是衡量某个状态最终能获得多少累积奖励的函数:

定义2：Q函数是衡量某个状态下采取某个行为后，最终能获得多少累积奖励的函数：

Q与V的关系：

递归：根据s产生a有个概率，根据s,a产生s’还有个概率，双层概率求和，然后，就建立了s的估值函数和s’估值函数的关系
在这里插入图片描述
求最佳策略的迭代算法：

这一算法的劣势：

对于状态数和行为数很多时，这种做法不现实。

例如：对一个ATARI游戏，状态数是相邻几帧所有像素的取值组合，这是一个天文数字！
ACTION数量从6到20不等

Q-learning的优化——Deep Q-Network (DQN)

定义
在这里插入图片描述
则有 Bellman Equation:

实例

打飞机的Atari游戏的DQN设置
在这里插入图片描述
一个更难的Atari游戏的DQN设置：

DQN算法流程

在这里插入图片描述
Q-learning的劣势：

（1）在一些应用中，状态数或行为数很多时，会使Q函数非常复杂，难以收敛。例如图像方面的应用，状态数是(像素值取值范围数)^(像素个数)。这样的方法，对图像和任务没有理解，单纯通过大数据来获得收敛。

（2）很多程序，如下棋程序等，REWARD是最后获得（输或赢），不需要对每一个中间步骤都计算REWARD.

Policy gradient

在这里插入图片描述

Actor-Critic算法：

总结

（1）目前强化学习的发展状况：在一些特定的任务上达到人的水平或胜过人，但在一些相对复杂的任务上，例如自动驾驶等，和人存在差距。

（2）和真人的差距，可能不完全归咎于算法，传感器、机械的物理限制等，也是决定性因素。

（3）机器和人的另一差距是：人有一些基本的概念，依据这些概念，人能只需要很少的训练就能学会很多，但机器只有通过大规模数据，才能学会。

（4）但是，机器速度快，机器永不疲倦，只要有源源不断的数据，在特定的任务上，机器做得比人好，是可以期待的。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。