【强化学习】- 1.介绍

1. 强化学习问题

强化学习(Reinforcement Learning, RL)是一种机器学习方法,通过与环境的交互来学习如何采取行动,以最大化累积奖励。
在这里插入图片描述

  • 奖励(Reward R_t): 标量反馈信号(Rt),表示智能体在每个时间步的表现。目标是最大化累积奖励。

  • 智能体-环境互动:

    • 智能体:做决策并采取行动
    • 环境:提供观察和奖励
  • 状态:

    • 环境状态:环境使用的内部信息
    • 智能体状态:智能体用于决策的信息
    • 信息状态(马尔可夫状态):包含历史中所有有用信息
  • 可观察性:

    • 完全可观察:智能体直接观察环境状态
    • 部分可观察:智能体间接观察环境状态

2. RL agent的主要组成

RL agent 可能包含以下一个或多个:

  • 策略:agent的行为函数
  • 价值函数: 评估每个动作或状态的好坏
  • 模型:agent的环境表示

策略policy

策略是智能体的行为函数,从状态state到行为的对应:

  • 确定性的策略 : a = π ( s ) a=\pi(s) a=π(s)
  • 随机的策略: π ( a ∣ s ) = P ( A t = a ∣ S t = s ] \pi(a|s)=P(A_t=a|S_t=s] π(as)=P(At=aSt=s]

价值函数 value

价值函数是对未来奖励的预测,用来评估状态的好坏
v π ( s ) = E [ R t + γ R t + 1 + γ 2 R t + 2 + . . . ∣ S t = s ] v_{\pi} (s) = E[R_{t} +\gamma R_{t+1}+\gamma ^2 R_{t+2} + ...| S_t=s] vπ(s)=E[Rt+γRt+1+γ2Rt+2+...∣St=s]

?如何获取未来状态的奖励 R t + 1 R_{t+1} Rt+1
第三章中DP动态规划是假设环境已知,对应的奖励也已知。
第四章中model-free 蒙特卡洛中 要等整个回合完成往前更新value值,因此价值是通过完成的回合采样的真实回报 G t = R t + γ R t + 1 + γ 2 R t + 2 + . . . G_t=R_{t} +\gamma R_{t+1}+\gamma ^2 R_{t+2} + ... Gt=Rt+γRt+1+γ2Rt+2+...进行预估的。

模型model

模型预测未来环境的状态:

  • P P P 预测 下个状态state
    P s s ′ a = P ( S t + 1 = s ′ ∣ S t = s , A t = a ] P_{ss'}^a=P(S_{t+1}=s'|S_t=s,A_t=a] Pssa=P(St+1=sSt=s,At=a]
  • R R R预测下一个即时奖励
    R s a = E ( R t + 1 ∣ S t = s , A t = a ] R_{s}^a=E(R_{t+1}|S_t=s,A_t=a] Rsa=E(Rt+1St=s,At=a]

但在实际问题中model不是必须的,有时会有无模型的问题

3. RL agent的分类

- 基于价值函数的(value-based)

- 基于策略的(value-based)

- 演员-评论家 (actor-critic)-- policy+value

- 无模型 vs. 基于模型

model free:我们不直接对环境状态转移进行建模,而是直接基于value或者policy进行动作

4. 强化学习中的关键问题:学习 vs. 规划

学习vs规划:

强化学习:

  • 环境未知,
  • 智能体通过交互学习
  • 提升策略

规划 (planning):

  • 环境模型已知
  • 智能体计算最优策略

探索 vs. 利用:

  • 探索:收集环境信息
  • 利用:基于当前知识最大化奖励

预测 vs. 控制:

  • 预测:评估给定策略的预期回报
  • 控制: 找到最大化回报的最优策略
"Python 强化学习项目 - 2018.pdf" 是一个介绍强化学习项目的文档,使用 Python 编程语言作为实现工具。强化学习机器学习中的一个分支,主要是研究如何让智能体在与环境的交互中通过试错学习来获得最大的累积奖励。 该文档提供了一些基于 Python 的强化学习项目案例,目的是帮助读者理解和实践强化学习的概念和应用。这些项目案例可能包括以下内容: 1. 强化学习算法实现:该文档可能介绍了一些常用的强化学习算法,如Q学习、深度 Q 网络(DQN)、策略梯度等,并提供了相应的Python代码实现。通过这些项目案例,读者可以学习到如何使用Python编程语言来实现这些算法。 2. 游戏或机器人控制案例:强化学习经常应用于游戏和机器人控制。该文档可能提供了一些使用强化学习算法来玩游戏或控制机器人的项目案例。通过这些案例,读者可以学习到如何通过强化学习的方法来训练一个智能体,在特定环境中掌握游戏规则或实现特定任务。 3. 实际应用案例:除了游戏和机器人控制,强化学习也被应用于其他领域,如金融、交通等。该文档可能提供了一些强化学习在实际应用中的项目案例,读者可以学习到如何将强化学习算法应用于解决实际问题。 总之,"Python 强化学习项目 - 2018.pdf" 是一个介绍强化学习项目的文档,通过提供具体的项目案例,帮助读者学习和实践强化学习算法在Python中的应用。这些项目案例可能涵盖了强化学习算法实现、游戏或机器人控制案例以及实际应用案例。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值