强化学习Day1

最新推荐文章于 2024-11-15 12:28:06 发布

zzc-ccccc

最新推荐文章于 2024-11-15 12:28:06 发布

阅读量280

点赞数 3

文章标签：深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46387163/article/details/139788948

版权

学习目标

初识强化学习
马尔可夫过程
动态规划

1. 初识强化学习

1.1 强化学习和监督学习的区别

强化学习没有定义好的训练数据，监督学习需要输入有标签的数据
强化学习训练的核心是在决策过程中尽可能获得多的奖励，监督学习的核心是尽可能预测值与实际值相同
强化学习多适用于决策任务，监督学习适用于分类和回归

1.2 强化学习基础概念

智能体就是在强化学习过程中的主角。获取环境中的状态，利用状态输出决策，从环境获得奖励。
奖励就是环境给的反馈，赢了＋1分，输了-1分。
序列决策就是一系列的动作：上升，下降
动作空间就是智能体可以做的动作：上升，下降
智能体的组成部分包含策略，价值函数，模型
策略
价值函数对当前状态进行评估，评估智能体进入某个状态后带来的奖励
模型RL智能体&免模型RL智能体

1.3 强化学习练习

问：强化学习的基本结构是什么
答：智能体–动作–环境–状态–奖励
问：强化学习相对于监督学习为什么训练过程会更加困难？
答：因为强化学习的其中一个特点是延迟奖励，相对于监督学习来说需要更长的时间和更复杂的步骤才能评价结果。
问：强化学习的基本特征有哪些？
答：试错探索，从环境中获得延迟的奖励，数据是时间关联的数据，非独立同分布
状态和观测有什么关系？
答：状态时对世界的完整描述，观测是对状态的描述。状态相对于观测来说是完整的，不会遗漏。
问：强化学习智能体可以分为几类
答：基于价值的和基于策略的
问：基于价值的和基于策略的智能体有什么区别
答：基于策略的是静态的，决策方式是根据给定的状态从动作集合中选择一个动作依据。而基于价值的智能体就不需要制定策略，通过价值表格来选取价值最大的动作。基于价值的是不连续的，离散的。

2. 马尔可夫过程

2.1 马尔可夫的性质

未来的状态只取决于现在

2.2 马尔可夫决策

策略定义了在某一个状态应该采取什么样的动作。知道当前状态后，我们可以把当前状态代入策略函
数来得到一个概率

3. 动态规划

3.1 动态规划基础概念

最优子结构
重叠子问题

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。