强化学习之概述

最新推荐文章于 2024-08-11 18:21:52 发布

静_流

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量5.6k

点赞数 7

分类专栏：【算法】强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hiwallace/article/details/81167392

版权

本文介绍了强化学习的基础知识，包括其定义、与监督学习和非监督学习的区别、应用案例及核心组成。强调了奖励、状态和动作的重要性，以及智能体的策略、值函数和模型在强化学习中的角色。同时，讨论了强化学习的分类和关键概念，如探索与利用的平衡，以及规划与强化学习的关系。

摘要由CSDN通过智能技术生成

什么是强化学习？

面向智能体的学习–通过与一个环境进行交互来实现目标

通过试错和优化进行学习–用试错后的奖励（或惩罚）进行学习

强化学习 vs 其他机器学习

机器学习
- 监督学习：有即时标签的学习（如分类，回归等）
  
  监督学习要求带标签的数据，这些数据是比较昂贵的
  标注数据也是一门学问
- 非监督学习：无标签学习（聚类问题等）
  
  无标签数据的数量非常庞大且容易获得
- 强化学习：有延迟奖励的学习问题，介于监督与非监督之间
  
  即时的奖励：如果分错了，只告诉你错了
  延迟的奖励：等全部分类完毕之后，告诉总分数如何

监督学习本质上可以认为是强化学习的一种特殊形式（无延迟场景）
强化学习更贴近人类的学习过程
强化学习可能是通往通用人工智能的道路，目前人工智能都是弱人工智能

强化学习的应用案例

这里写图片描述

强化学习整体结构

这里写图片描述

强化学习整体结构由环境，智能体及之间的交互组成，每个时刻t：

智能体执行动作 $A_t$ ，并在环境中得到观测值 $O_t$ 和奖励值 $R_t$
环境会对智能体的动作 $A_t$ 做出反应，然后送出新的观测值 $O_{t+1}$ 和奖励值 $R_{t+1}$

智能体是指强化学习需要优化的部分，是我们能够精确控制的部分

环境是我们不能直接控制的部分

区分智能体和环境是强化学习的第一步，不同的问题，智能体和环境的划分也有所不同

强化学习的组成

强化学习主要包括三个要点：奖励，状态和动作。

奖励

奖励是强化学习的核心，可以没有观测，但是不能没有奖励。奖励是强化学习区别其他机器学习的标志特征。奖励的特点包括：

奖励 $R_t$ 是一个标量反馈
奖励衡量了智能体在时间t上做得有多好
智能体的目标就是最大化累计奖励
强化学习的目标就是最大化期望累计奖励

举例：

无人机和无人车控制
+奖励：如果按预定轨迹运行
-奖励：碰撞或翻车
下围棋
+奖励：赢了
-奖励：输了

注：奖励并不要求一定要有正有负，只有正的奖励和负的奖励就可以，因为看的是相对值

长期奖励

每一个动作都有可能是一个长期的结果，奖励可能有延迟，有时我们需要牺牲一些短期奖励来获取更多长期的奖励，比如下围棋，只有在最后才能获得奖励

奖励值与回报值

回报值
当智能体在时间t做出动作 $A_t$ 时，会在未来收到奖励序列{ $R_t$ ,

最低0.47元/天解锁文章

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。