西瓜书第十六章 —— 强化学习

leiuser

于 2023-04-06 08:38:07 发布

阅读量203

点赞数

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leiuser/article/details/129980916

版权

在强化学习中，一个智能体（agent）通过与环境的交互来学习行动策略，以最大化期望的长期回报。

包含元素：

环境（Environment）：智能体所处的环境，由状态（state）和奖励（reward）组成。
智能体（Agent）：负责采取行动（action）以达到最大化回报的决策系统。
策略（Policy）：智能体采取行动的方式，通常表示为从状态到行动的映射。
奖励（Reward）：用于衡量智能体的行动的好坏，并且提供了一个学习信号。
值函数（Value Function）：衡量智能体在当前状态下采取行动的长期回报，用于指导智能体的行动选择。
学习算法（Learning Algorithm）：根据智能体与环境的交互来更新策略、值函数等参数，以优化长期回报。

K摇臂老虎机

探索和利用
- 探索（估计摇臂的优劣）和利用（选择当前最优摇臂）是矛盾的
- 探索-利用窘境
- 必须折中
ε-贪心算法
softmax算法

强化学习分类：

有模型学习
- 代理通过学习环境的动态模型来预测在不同行为下的未来状态和奖励
- 优点：可以更高效地规划和预测未来的行为，从而实现更优秀的策略
- 缺点：需要建立一个准确的环境模型，这在实际应用中往往是难以实现的
免模型学习

蒙特卡罗强化学习

通过模拟环境交互来进行学习，而不需要环境的先验知识
将每个状态的回报视为一个样本，通过对这些样本进行求平均值来估计状态值函数。这样，智能体就可以根据状态值函数来选择最优的行动
将每个状态的回报视为一个样本，通过对这些样本进行求平均值来估计状态值函数。这样，智能体就可以根据状态值函数来选择最优的行动

值函数近似

值函数近似是强化学习中常用的一种技术，它通过利用函数逼近方法，将状态值函数或动作值函数表示为参数化函数的形式，从而减少计算量，并且可以处理大规模状态空间或动作空间的问题
基于梯度：最小化均方误差算法，策略梯度算法
基于最小二乘法

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
西瓜书第十六章 —— 强化学习

学习算法（Learning Algorithm）：根据智能体与环境的交互来更新策略、值函数等参数，以优化长期回报。值函数（Value Function）：衡量智能体在当前状态下采取行动的长期回报，用于指导智能体的行动选择。环境（Environment）：智能体所处的环境，由状态（state）和奖励（reward）组成。中，一个智能体（agent）通过与环境的交互来学习行动策略，以最大化期望的长期回报。探索（估计摇臂的优劣）和利用（选择当前最优摇臂）是矛盾的。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。