一、强化学习概述

最新推荐文章于 2024-06-16 22:42:04 发布

我的大名王二狗

最新推荐文章于 2024-06-16 22:42:04 发布

阅读量719

点赞数

分类专栏：深度强化学习从零开始入门深度强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30193419/article/details/98585482

版权

深度强化学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

从零开始入门深度强化学习

4 篇文章 0 订阅

订阅专栏

强化学习是什么？

强化学习是面向智能体的学习，智能体通过与环境进行交互来达到预定目标。

强化学习通过试错和优化来进行学习，智能体通过试错后的奖励或者惩罚来学习。

强化学习和机器学习的关系：

机器学习分为三类：监督学习、非监督学习、强化学习。

监督学习：有即时标签的学习。

非监督学习：无标签学习。

强化学习：有延迟奖励的学习。

【例】：给出一批人脸图片，要求做分类

监督学习：给定人脸的标签（人名），通过数据学习得出人脸属于哪个数据。

非监督学习：不需要标签，通过学习，判断出哪些图像属于同一个人。

强化学习：没有标签，只有奖励信号，奖励包括：

即时奖励：如果分错了，告诉你错了。

延迟奖励：全部分类完毕，告诉你本次分类的得分。

强化学习的直观特性：

1）没有监督信号，只有奖励信号（具体变抽象）

2）奖励信号大都是延迟的，不是即时的。

3）强化学习是优化问题。

4）强化学习的数据具有时间上的相关性，不满足数据独立同分布假设。

强化学习的组成：

实：

智能体（agent）：是强化学习中需要优化的部分，是可以精确控制的部分。

环境(Env)： 环境是我们不能直接控制的部分，可以通过智能体来改变环境。

动作（Action）：动作是智能体与环境交互的媒介，动作的设定要能够改变未来所获的奖励，动作必须对环境起到一定的控制作用。

虚：

奖励（Reward）：奖励是一个标量，来衡量智能体在时间t上所做的动作的好坏。智能体或者说强化学习的目标就是最大化累计奖励。

回报（Return）：回报就是累计奖励，智能体在时刻t做出动作a时，会在未来收到奖励序列：Rt,Rt+1,Rt+2...。我们的目的是要最大化累计奖励，通用的办法就是将奖励加权求和，定义为回报。

$G_{t} =w _{t}*{R_{t}}+w _{t+1}*{R_{t+1}}+w _{t+2}*{R_{t+2}}+...$

强化学习的目标就是最大化回报值。

衰减系数：回报的权重处理方式。我们对于当下的奖励和未来的奖励的关注度不同，或者说当下的奖励和未来的奖励对回报值的影响不同，我们通过权重来处理对于不同时刻奖励的关注度，定义 $\gamma$ 为衰减系数。

$G_{t} ={R_{t}}+\gamma *{R_{t+1}}+ \gamma ^{2}*{R_{t+2}}+\gamma ^{3}*{R_{t+3}}...$ $\gamma \in [0,1]$

$\gamma$ 越大，表明我们对未来的关注度越大，越关注长期奖励， $\gamma$ 越小，表明我们越关注短期奖励。

策略（Policy）：策略是一个从状态到动作的映射。直观上的描述就是智能体在什么状态下做什么事。强化学习的最终目的就是找到一个策略，使得回报值的期望最大化。

我的大名王二狗

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
一、强化学习概述

强化学习是什么？强化学习是面向智能体的学习，智能体通过与环境进行交互来达到预定目标。强化学习通过试错和优化来进行学习，智能体通过试错后的奖励或者惩罚来学习。强化学习和机器学习的关系：机器学习分为三类：监督学习、非监督学习、强化学习。监督学习：有即时标签的学习。非监督学习：无标签学习。强化学习：有延迟奖励的学习。【例】：给出一批人...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。