百度强化学习七日打卡营-学习笔记

百度强化学习七日打卡营-学习笔记

1、强化学习的作用
强化学习区分于监督学习和无监督学习,强化学习问题本身无法给出确切的答案,因此无法像监督学习一样,直接给出答案。其求解方法需要不断的与环境交互,以求解答案。

2、强化学习算法
(1)on-policy和off-policy策略对比
(1.1)q-learning 是off-policy策略,更新参数和与环境交互的策略是使用的不同的策略。
(1.2)sarsa 是on-policy策略,更新参数和与环境交互的策略是采用的相同的策略。

(2)DQN
在状态特别多的情况下,如果用q-learning方法,存储q表格所使用的内存是非常巨大的,甚至是难以接受的,因此用深度网络来代替q表格,即为DQN算法,深度网络输出所有可能的动作的执行概率,以替代q表格,输入深度网路的数据为sars:当前状态、当前执行的动作、reward和移动后的状态。
两个技巧:
目标网络:每隔一段时间复制原网络到生成真实标签的网络,用以生成真实的标签。(解决算法的非平稳性,以更快更好的收敛)
经验回放:用一个固定大小的池子,不断放入数据,每次更新参数时,随机从池子中取出一部分数据。(充分利用样本,并使样本之间有关联)
在这里插入图片描述

(3)PG(Policy Gradient)
前面的方法是采用了先求价值函数,再通过价值函数获得执行动作的方法。(即value-based的方法)
而PG算法采用了端到端的思想,输入状态、动作、reward等值,直接获得执行动作的概率。(即policy-based的方法)
在这里插入图片描述
在这里插入图片描述
PG算法的几个关键点:
3.1、一个epoch更新一次参数。
3.2、更新的损失函数的目标是让“收获”最大。(如上图中的损失函数公式)

(4)DDPG算法(处理连续输出问题的算法)
核心思想:由dqn改进得到,将网络的输出通过一个tanh函数获得一个-1到1之间的值,再根据实际问题进行缩放,得到实际的连续值结果,再将此结果输入到类似与PG算法的策略网络进行更新。
在这里插入图片描述
DDPG = DQN + PG
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值