datawhale学习-深度强化学习1:绪论

本文探讨了强化学习的核心概念,包括试错学习、奖励与惩罚机制,以及其在游戏AI、机器人、金融等领域中的应用。文章还涵盖了多智能体、从数据中学习、探索策略、实时环境和多任务强化学习等方向的概述。
摘要由CSDN通过智能技术生成

1 强化学习(reinforcement learning,RL)

试错学习:以下几个关键部分:

  1. 尝试
  2. 错误
  3. 结果
  4. 学习

        试错学习是强化学习的最鲜明要素,但并不是全部,强化学习还包括其他学习:如观察学习(模仿学习,离线强化学习等)

        把好的结果称为奖励,坏的称为惩罚。一次次决策以获得最佳的奖励,这个过程就是序列决策

        对于任何问题,只要能够建模成序列决策问题,就可以使用强化学习来解决,这就是学习强化学习的原因。

2 强化学习的应用

  1. 游戏AI,如AlphaGo为代表的围棋AI。
  2. 机器人的学习,通过仿真来模拟真实环境,降低实验成本。
  3. 金融领域,如股票交易,期货交易,外汇交易等。
  4. 其他如自动驾驶,推荐系统,交通派单,广告投放,chatgpt等。

3 强化学习方向概述

1 多智能体强化学习(multi-agent reinforcement learning,MARL)

        在多个智能体的环境下进行强化学习,通常存在非静态问题,即环境的状态不仅由智能体的动作决定,还受到其他智能体的动作影响。

        其次存在信号问题,即智能体之间可以通信来合作或竞争。

2 从数据中学习

        从数据中学习或者从演示中学习,包含许多门类,如从专家数据中学习策略,以逆强化学习为代表的从人类数据中学习等。

        模仿学习是指可以通过模仿人类的行为来学习一个较好的策略。最经典之一的就是行为克隆,即把每一个状态-动作对视为一个训练样本,并通过监督学习方法来学习一个策略。

        逆强化学习是指观察人类的行为来学习到一个奖励函数,然后通过强化学习来学习一个策略。

3 探索策略

        即如何在探索和利用中做出权衡。

4 实时环境

        实时环境指在实时或在线环境中进行决策,如自动驾驶,机器人等等。这种情况下训练会降低效率,解决办法是离线强化学习。

5 多任务强化学习

        实际应用中,智能体经常需要同时解决多个任务,而不是单一的决策任务,所以如何在多个任务中做出权衡是一个难题。

        目前常用方法有:联合训练和分层强化学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值