强化学习Datawhale打卡班

最新推荐文章于 2024-07-19 22:46:50 发布

源中阮

最新推荐文章于 2024-07-19 22:46:50 发布

阅读量135

点赞数 1

文章标签：人工智能深度学习 python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oHuXing1/article/details/125754750

版权

强化学习Datawhale打卡班

第1章强化学习基础
- 强化学习和监督学习的区别
- 序列决策

第1章强化学习基础

强化学习（reinforcement learning，RL）讨论的问题是智能体（agent）怎么在环境（environment）中最大化奖励。

强化学习示意

强化学习和监督学习的区别

强化学习和监督学习的区别如下：

（1）强化学习输入的样本是序列数据，监督学习样本是独立的。

（2）学习器不知道正确的动作应该是什么，需要通过不停地尝试，自己去发现哪些动作可以得到最多的奖励。

（3）智能体获得自己能力的过程，其实是不断地试错探索（trial-and-error exploration）的过程。探索（exploration）和利用（exploitation）是强化学习里面非常核心的问题。

（4）在强化学习过程中，没有非常强的监督者（supervisor），只有奖励信号（reward signal），并且奖励信号是延迟的。

序列决策

在一个强化学习环境里面，智能体的目的就是选取一系列的动作来最大化奖励。但在这个过程里面，智能体的奖励被延迟，即智能体当时做出的决策，要等到很久后才知道这一步产生了什么样的影响。

强化学习通常被建模成部分可观测马尔可夫决策过程（partially observable Markov decision process, POMDP）的问题。部分可观测马尔可夫决策过程依然具有马尔可夫性质，但是假设智能体无法感知环境的状态，只能知道部分观测值。比如在自动驾驶中，智能体只能感知传感器采集的有限的环境信息。部分可观测马尔可夫决策过程可以用一个七元组描述：(S,A,T,R,Ω,O,γ)。其中 SS 表示状态空间，为隐变量，AA 为动作空间，T(s′∣s,a) 为状态转移概率，RR 为奖励函数，Ω(o∣s,a)Ω(o∣s,a) 为观测概率，OO 为观测空间，γγ 为折扣系数。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习Datawhale打卡班

datawhale组队强化学习
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。