深度强化学习概述

深度强化学习

概述

深度强化学包含深度学习和强化学习两个概念,简单来说就是将是深度神经网络与传统强化学习结合起来,突破了传统强化学习的瓶颈

深度强化学习是一种无监督学习

分类

  • model_base VS model_free

    • model_base:事先制定策略
    • model_free: 事先不制定策略,让agent从环境的反馈中学习
  • 基于价值 VS 基于策略

    • 基于价值:通过计算奖励选取动作
    • 对策略抽样训练出一个概率分布,并增强回报值高的动作被选中的概率
  • 回合更新 VS 单步更新

    • 回合更新: 每个回合结束对策略进行更新
    • 单步更新:每走一步更新一下策略(更有效率)
  • 在线学习 VS 离线学习

    • 在线学习:根据环境的反馈实时学习
    • 离线学习:将进行过的状态存下来,之后的一段时间后回想学习

发展

传统强化学习

Q-learning

一个回合有很多个状态,在每个状态可以选择若干动作,每个动作执行之后会达到不同的状态,同时在执行玩这个动作后环境会反馈相应的奖励.

Q_learning 使用一个矩阵存储每一个状态转换过程的信息,选取这个动作后得到正反馈,那么就会增加选取这个动作的概率,相反减少概率,之后每次根据表中对应状态选择概率最大的动作

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值