【强化学习】- 1.介绍

glitterosu

已于 2024-08-06 22:28:38 修改

阅读量489

点赞数 9

分类专栏：强化学习文章标签：机器学习

于 2024-07-31 19:29:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/glitterosu/article/details/140828715

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1. 强化学习问题

强化学习（Reinforcement Learning, RL）是一种机器学习方法，通过与环境的交互来学习如何采取行动，以最大化累积奖励。
在这里插入图片描述

奖励（Reward R_t): 标量反馈信号(Rt),表示智能体在每个时间步的表现。目标是最大化累积奖励。
智能体-环境互动:
- 智能体:做决策并采取行动
- 环境:提供观察和奖励
状态:
- 环境状态:环境使用的内部信息
- 智能体状态:智能体用于决策的信息
- 信息状态(马尔可夫状态):包含历史中所有有用信息
可观察性:
- 完全可观察:智能体直接观察环境状态
- 部分可观察:智能体间接观察环境状态

2. RL agent的主要组成

RL agent 可能包含以下一个或多个：

策略：agent的行为函数
价值函数：评估每个动作或状态的好坏
模型：agent的环境表示

策略policy

策略是智能体的行为函数，从状态state到行为的对应：

确定性的策略： $a=\pi(s)$
随机的策略： $\pi(a|s)=P(A_t=a|S_t=s]$

价值函数 value

价值函数是对未来奖励的预测，用来评估状态的好坏
$v_{\pi} (s) = E[R_{t} +\gamma R_{t+1}+\gamma ^2 R_{t+2} + ...| S_t=s]$

？如何获取未来状态的奖励 $R_{t+1}$
第三章中DP动态规划是假设环境已知，对应的奖励也已知。
第四章中model-free 蒙特卡洛中要等整个回合完成往前更新value值，因此价值是通过完成的回合采样的真实回报 $G_t=R_{t} +\gamma R_{t+1}+\gamma ^2 R_{t+2} + ...$ 进行预估的。

模型model

模型预测未来环境的状态：

$P$ 预测下个状态state
$P_{ss'}^a=P(S_{t+1}=s'|S_t=s,A_t=a]$
$R$ 预测下一个即时奖励
$R_{s}^a=E(R_{t+1}|S_t=s,A_t=a]$

但在实际问题中model不是必须的，有时会有无模型的问题

3. RL agent的分类

- 基于价值函数的（value-based）

- 基于策略的（value-based）

- 演员-评论家（actor-critic）-- policy+value

- 无模型 vs. 基于模型

model free：我们不直接对环境状态转移进行建模，而是直接基于value或者policy进行动作

4. 强化学习中的关键问题：学习 vs. 规划

学习vs规划:

强化学习：

环境未知,
智能体通过交互学习
提升策略

规划（planning):

环境模型已知
智能体计算最优策略

探索 vs. 利用:

探索:收集环境信息
利用:基于当前知识最大化奖励

预测 vs. 控制:

预测：评估给定策略的预期回报
控制: 找到最大化回报的最优策略

关注

9
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。