强化学习纲要(周博磊) | 1、强化学习纲要

周博磊老师课程:
https://www.bilibili.com/video/BV1LE411G7Xj?from=search&seid=16640883969039274910&spm_id_from=333.337.0.0
Github代码:
https://github.com/cuhkrlcourse/RLexample

强化学习

image-20210917192619344

什么是强化学习

智能体从环境中获得样例不断学习,获得样例后不断更新优化自己的模型参数,并利用模型来指导下一步的行为action,不断迭代后使得模型收敛,获得的reward最大化。

监督学习和强化学习的对比:

  1. 输入为序列数据
  2. 每一步的对错要通过奖励进行调整,所以需要不断地试错
  3. Trial-and-error不断试错,exploration尝试新的行为获得奖励;expoitation采取已知的获得最大奖励的行为
  4. 只有一个奖励信号,不能得到及时反馈,delayed reward

强化学习的特点:

  • Traial-and-error exploration 不断试错

  • Delayed reward 延迟奖励

  • Time matters 时间问题(强序列,无id data)

  • 智能体的行为会影响即将得到的数据

强化学习一个重要的问题是如何使他稳定的学习,甚至能获得超人类的知识水平

强化学习的例子:

  1. 围棋
  2. 羚羊学跑步
  3. 股票序列
  4. 游戏
    image-20210917193727721

DRL:

image-20210917193934718

DRL快速发展:高算力+获得更高维的特征+端对端训练

Sequential Decision Making

关键问题:

  • 学习的目的:选择一个行为序列使得未来总收益最大化
  • 行为可能是一个长时间的序列
  • 奖励的可能会被延迟
  • 如何权衡即时奖励和长期奖励

agent和环境

Full observability:

agent可以观察到所有的环境(MDP)

Partial observability:

agent只能观察到部分的环境(POMDP)

RL主要成分

  • Policy: agent’s behavior function (agent的行为)

  • Value function: how good is each state or action(某种策略下的累计期望收益)

  • Model: agent’s state representation of the environment

image-20210917200932505

image-20210917200958243

image-20210917201005951

分类:

image-20210917195233608

image-20210917195243894

image-20210917195305915

Exploration:探索尝试新的(试错)

Exploitation:选择已知奖励最大的行为

RL example:

https://github.com/metalbubble/RLexample

Exploitation:选择已知奖励最大的行为

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nosimper

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值