强化学习入门《Easy RL》

最新推荐文章于 2024-06-20 01:19:58 发布

tiantizzz

最新推荐文章于 2024-06-20 01:19:58 发布

阅读量548

点赞数

分类专栏：强化学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tiantizzz/article/details/126396043

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

什么是强化学习

强化学习关注的是智能体（Agent）在复杂的环境（Environment）中如何最大化获得的奖励（Reward）。智能体和环境两部分组成了强化学习，在强化学习过程中，智能体与环境一直在交互。智能体在环境中获取某个状态后，它会利用该状态输出一个动作（action），这个动作也称为决策（decision）。然后这个动作会在环境中被执行，环境会根据智能体采取的动作，输出下一个状态以及当前这个动作带来的奖励。智能体的目的就是尽可能多地从环境中获取奖励。

强化学习、监督学习以及无监督学习的区别

简单来讲，监督学习和无监督学习的主要区别在于是否有标签。监督学习是指对于输入的训练集已经有人工做好了相应的判断，或正或负，或是分类问题的猫狗等。需要做到有新的输入时，模型需要输出相应的判断。而无监督学习是我没有一个明确的目标，但需要计算机在输入的数据中给我找出一个规律或是做出某些判断来。

另外，在监督学习中有两个假设：

输入的数据（标注的数据）都应是没有关联的。
指出正确的标签是什么，这样它可以通过正确的标签来修正自己的预测。

强化学习的输入往往是具有关联性的时间序列数据，是对时间非常敏感的，另外强化学习的过程中也可能得不到立即的反馈。即智能体当前做出的动作很可能对结果产生或好或坏的结果，但当下这一刻，是并不清楚的。这就是延迟奖励问题。

强化学习具有以下特征：

强化学习会试错探索，它通过探索环境来获取对环境的理解。
强化学习智能体会从环境里面获得延迟的奖励。
在强化学习的训练过程中，时间非常重要。因为我们得到的是有时间关联的数据（sequential data），而不是独立同分布的数据。在机器学习中，如果观测数据有非常强的关联，会使得训练非常不稳定。这也是为什么在监督学习中，我们希望数据尽量满足独立同分布，这样就可以消除数据之间的相关性。
智能体的动作会影响它随后得到的数据，这一点是非常重要的。在训练智能体的过程中，很多时候我们也是通过正在学习的智能体与环境交互来得到数据的。所以如果在训练过程中，智能体不能保持稳定，就会使我们采集到的数据非常糟糕。我们通过数据来训练智能体，如果数据有问题，整个训练过程就会失败。所以在强化学习里面一个非常重要的问题就是，怎么让智能体的动作一直稳定地提升。

动作空间

动作空间（action space）是指在给定的环境中，有效动作的集合。动作空间分为离散和连续两种，离散动作空间是指内部的动作是有限的。相反连续动作空间是无限的。

智能体的组成和类型

智能体由策略、价值函数、模型三部分组成，其中每部分可能有一个或多个。

策略（policy）。智能体选取下一步的动作的依据。
价值函数（value function）。价值函数用来对当前状态进行评估。价值函数评估智能体进入某个状态后，对后面的奖励带来多大的影响。价值函数值越大，说明智能体进入这个状态越有利。
模型（model）。模型表示智能体对环境的状态进行理解，它决定了环境中世界的运行方式。

强化学习的探索-利用窘境

探索（）和利用（）是强化学习里面很重要的概念，探索是智能体在环境中通过不同的动作来试图获得最大奖励的过程。而相对的，利用则是智能体不去尝试新的动作，而是在已有的动作空间中执行可以获得最大奖励的动作。

当然，想获得最大的奖励，无论是单单探索或是仅利用都没有办法达到，而对于一次强化学习过程，有限的资源下如何找到两者之间的平衡则是需要重点考虑的。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。