强化学习基础

最新推荐文章于 2024-05-27 16:46:38 发布

shinel`l

最新推荐文章于 2024-05-27 16:46:38 发布

阅读量572

点赞数

分类专栏：深度学习基础文章标签：深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44898314/article/details/125751136

版权

深度学习基础专栏收录该内容

7 篇文章 0 订阅

订阅专栏

#强化学习基础

##1 基本定义

强化学习：由智能体和环境组成；解决智能体如何在复杂多样的环境中使其获得的奖励最大化的问题；

强化学习与监督学习区别：

（1）强化学习的样本是序列数据，监督学习的样本是独立同分布的；

（2）强化学习的学习器无法告知下一步的正确动作，需要通过多次尝试去发现能获得最大奖励的动作；

（3）强化学习通过不断的探索和利用来完善自身能力；

（4）使用监督学习能立即获得指导信号，强化学习只有奖励信号，且是延迟的；

强化学习基本特征：

（1）需要不断探索环境获取对环境的理解；

（2）Agent会从Environment中获得延迟奖励；

（3）训练过程中，数据与时间关联；

（4）强化学习中Agent的Action能影响后续反馈；

##2 序列决策

序列决策过程：智能算法对环境的一系列反馈做出的相对应决策过程。

状态与观测：状态是对世界的完整描述，信息没有隐藏；观测是对状态的部分描述，存在信息遗漏；在强化学习中总是用实值的向量、矩阵或更高阶的张量来表示状态和观测。

##3 动作空间

定义：有效的动作集合被称为动作空间；包括离散动作空间和连续动作空间。

##4智能体的组成成分和类型

一个强化学习智能体包含策略、价值函数和模型三个部分。

策略：策略是智能体的动作模型，决定了其动作；实质是一种用于把输入状态变成动作的函数；策略分为随机性策略和确定性策略。随机性策略：智能体对于观测的结果以某种概率决定下一步动作；确定性策略：智能体直接采取最有可能的动作。

价值函数：函数值是对未来奖励的预测，用于评估状态的好坏；价值函数越大，越有利；

模型：模型决定了下一步状态，下一步状态取决于当前的状态和采取的动作。模型由状态转移概率和奖励函数两部分组成。转移函数为动作间的转移概率，奖励函数为智能体在当前状态彩群某个动作得到的奖励大小。

##4 强化学习智能体类型

###4.1 基于价值的智能体与基于策略的智能体

基于价值的智能体显式地学习价值函数，隐式地学习策略；策略从学到的价值函数里推算出来。

基于策略的智能体直接学习策略，给其一个状态，就能输出对应动作的概率。

###4.2 有模型强化学习智能体与免模型强化学习智能体

有模型强化学习智能体通过学习状态的转移来采取动作。根据环境中的经验，构建一个虚拟世界，同时在真实环境和虚拟世界中学习。

免模型强化学习智能体通过学习价值函数和策略函数进行决策；模型内没有环境转移的模型，不对环境建模，直接与真实环境进行交互来学习到最优策略。

学习和规划是序列决策的两个基本问题；

探索和利用是强化学习的两个核心问题。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习基础

摘要：本文是强化学习的基础内容介绍，包括其概述、序列决策、动作空间、实验等内容，可供初学者学习。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。