深度学习---强化学习

强化学习

学习方法分类

在这里插入图片描述

基于理解环境(Model-Free、Model-base)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • Model Free 的方法让机器人按部就班等待真实世界的反馈,根据反馈采取下一步的行动
  • Model Base的方法,让机器人通过想象,然后预判断发生的所有情况,然后选择最优的策略

基于概率(Policy-Based RL)

在这里插入图片描述

  • 基于概率:每种行为都有可能被选中,即使概率最高也不一定选择它
  • 基于价值:选择分数最高的
    在这里插入图片描述
  • 对于连续的行为,基于价值无能为力
    在这里插入图片描述
  • 给出动作和价值
    在这里插入图片描述
    在这里插入图片描述
  • 单步学习更有效率

在这里插入图片描述

  • 本人边玩边学
  • 看着别人行为学习,或者是自己的过往行为
    在这里插入图片描述

Q-learning

在这里插入图片描述

  • Q(s1,s2)估计:从s1状态选用行为a2,作为下一次估计
  • Q(s1,s2)现实:取s2状态中取最大的价值行为
  • γ衰减值,R获得奖励,α学习效率
  • 左下图为Q表记录,状态s,行为a,此表初始状态已经训练好
  • 每次选择奖励大的行为(a2),作为一下个状态(s2),此时Q表更新为-4,2

在这里插入图片描述

  • -greedy:决策的策略,0.9(90%按最优值选择行为,10%随机选择行为)
  • α学习率,这次误差要有多少要被学习
  • γ衰减:未来奖励的衰减值

在这里插入图片描述

  • 1.这种正序的解释极其难懂,用反序来解释一下好了
  • 2.Q(s1)表示第一个行为的评分,但是第一个行为的时候我们还不知道最终结果,就像蝴蝶效应一样,需要从最终结果反推第一个行为的影响(评分)
  • 3.所以第一个行为的评分是与后面所有行为都息息相关的,假设到第5个行为的时候行为结束
  • 4.那么最终结果中,第一个行为的影响则应该是由导致最终结果的第五个行为,加上导致第五个行为的第四个行为,加上导致第四个行为的第三个行为
  • 5.如此反复,一直加到第一个行为,这样就得到了第一个行为的评分
  • 6.同时我们直观上认为影响结果的主要是最后一个行为,越向前影响应该会越小,因此每个行为向前就会有一个衰减系数γ

Saras

在这里插入图片描述

  • 与Q-learning区别在于估计值直接作为现实中状态的下一步
    在这里插入图片描述
  • On-policy:优化的目标策略与实际行为策略一样

在这里插入图片描述

  • Saras随便先走一个step再更新,Q-learning贪婪策略取最大再更新
  • Saras排除危险,走比较保守通向宝藏的道路
  • Q-learning不管多危险走向通向宝藏

Saras(λ)

在这里插入图片描述

  • λ:衰变值,离奖励越远的步,不一定是拿到奖励的步,从宝藏的位置向后看
  • λ=0,单步更新
  • λ(0-1),越大离宝藏更新越大
  • λ =1,回合更新

在这里插入图片描述

DQN(Deep Q Network)

融合神经网络与Q-Learning

在这里插入图片描述第二种
在这里插入图片描述
在这里插入图片描述

  • 从神经网络中预测出Q(s1,a1),Q(s2,a2)的值,选择最大值的动作换取传递中的奖励reward,
  • Q(s’)现实中包含两个Q估计的值,不过估计是下一次s’的估计
  • 算法更新提升神经网络的参数

在这里插入图片描述

  • Experience replay:DQN有一个学习库,学习过去的经历,Q-Learning是一个离线学习法,能够学习当前经历或者经历过的,或者别人的经历,每次DQN更新的时候,随机抽取别人的经历(打乱经历的相关性,使神经网络更有效率)
  • Fixed Q-targets:也是一种打乱经历相关性的机理,在DQN中使用结构相同,参数不同的神经网络,在游戏方面超越人类

在这里插入图片描述

  • Q-Learning的方法,结合神经网络,单纯使用神经网络,step很难收敛,
  • 记忆库(用于重复学习),随机调用,离散的方式,打破关联
  • 暂时冻结q_target参数(切断关联性),冻结Q现实神经网络,Q估计单步更新,Q现实(2000步)再更新,这样 切断关联性,增加收敛作用。

Double DQN

策略梯度(Policy Gradients)

  • 不通过奖惩输出行为,好处在于连续区间内输出动作(输出的action可以是一个连续的值)

在这里插入图片描述

  • 如何误差反向传递。实际没有误差,通过奖惩机制

在这里插入图片描述- 选择行为后,有奖惩信号,如果是不好的行为,降低选择的可能性

在这里插入图片描述

  • 更新神经网络参数θ,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值