强化学习
深海沧澜夜未央
这个作者很懒,什么都没留下…
展开
-
强化学习——应用环境
原创 2020-12-04 23:23:45 · 296 阅读 · 0 评论 -
强化学习——连续动作空间与DDPG
1.离散动作VS连续动作离散的动作:游戏的操作动作可数,例:向上下左右连续动作:输出的动作不可数 例:推锤子推的力,转方向盘2.DDPGDQN->DDPGActor-Critic结构(评论家-演员)目标网络target network+经验回放replay memory...原创 2020-12-04 23:16:10 · 3734 阅读 · 0 评论 -
强化学习——蒙特卡洛MC与时序差分TD
1.蒙特卡洛与时序差分蒙特卡洛在一个回合(epsiode)结束后再进行更新,时序差分在每一步(step)进行更新2.蒙特卡洛因为未来总收益Gt和Gt+1存在一定的关系,所以从后往前算,先算G3再算G2然后G1利用神经网络理解Policy Gradient手写数字通过神经网络识别,可以看出手写数字是9,更希望神经网络识别出也是数字9,这里利用交叉熵(Cross Entropy)计算2个概率之间的差值Policy Gradient预测每个状态state输出动作原创 2020-12-03 22:27:31 · 957 阅读 · 0 评论 -
强化学习——随机策略与策略梯度
1.value-based 与policy-based2.softmax函数3.举例:策略网络输入的是整个图像(向量或矩阵),输出的是3个动作的概率(向量)代表策略输出的概率,在状态s下选择a的概率,由于环境的随机性,不同的策略到不同的环境,这个概率用p来表述,称作状态转移概率。代表智能体在环境s选择动作a后有多少概率去s'(智能体的选择是可以优化的,环境的随机性是无法人为控制的)期望回报:在正常的情况下不会穷举所有的轨迹,且环境转移概率也不易计算,所以当原创 2020-12-02 15:37:47 · 2303 阅读 · 0 评论 -
强化学习-DQN
1.DQN的2个创新点经验回放(Experience):样本关联性 1)序列决策的样本关联 2)样本利用率低固定Q目标: 非平稳性 1)算法非平稳2.经验回放:利用off-policy的优势战斗过程是一个经验池(固定长度的队列),这样的一条经验是士兵和环境交互得到的:当超过经验池的容量后,弹出一条旧的经验,腾出新的空间。军师为了打乱经验池,随机从经验池中抽取数据更新表格。好处:1)打乱样本关联性 2)提高样本利用率相关代码:3.固定Q目标监督学习:输入x,目的原创 2020-12-01 12:11:32 · 871 阅读 · 0 评论 -
强化学习——函数逼近与神经网络
1.函数逼近可数的状态可用Q表格表示,但在实际中的应用状态的数量级十分大,所以可采用值函数近似。2.神经网络输入训练数据,输出结果神经网络可用逼近任意连续函数神经网络代码举例:3.DQN 使用神经网络求解RL问题中的经典算法DQN的本质为Q-learing,从environment中获得state,通过查表,获得Q值及动作,然后输出给环境,拿到下一个state和reward。DQN的改进在于直接把Q表格换成神经网络4.监督学习其训.原创 2020-11-21 11:45:45 · 694 阅读 · 0 评论 -
强化学习 ——On-Policy与Off-Policy
1.on-policy与off-policySarsa(on-policy)优化的是实际上执行的策略,拿下一步一定执行的action来优化Q表格,Sarsa知道自己 下一步会跑到悬崖去,所以在这一步它会尽可能的离悬崖远一点,保证下一步即使是随机动作,也会在安全区域内。off-policy在学习的过程中,保留2种策略:1)希望学到的最佳的目标策略 (target policy),2)探索环境的策略(behavior policy),大胆探索环境为了给目标学习,off-policy由于将目标与行为策略分原创 2020-11-20 17:07:33 · 1594 阅读 · 0 评论 -
强化学习——Sarsa
1.Sarsa:核心:拿下一步的Q值来更新这一步的Q值sample() 输入的为状态,输出的为动作。再进行learn()需要注意要先通过next_obs拿到next_action2.3.Sarsa与环境交互3.1Sarsa Agent 根据Q表格选动作3.2.更新Q表格...原创 2020-11-19 11:26:27 · 372 阅读 · 0 评论 -
强化学习——强化概念
1.强化概念:巴浦洛夫的条件反射实验在不断的重复实验后,下一个状态的价值不断的强化影响上一个状态的价值。2.Temporal Differenct时序差分(TD单步更新)拿下一步的Q值更新这一步的Q值第一个为想要逼近的目标值,软更新的方式是每次更新一点点,在这个不断更新的过程中需要3.与环境交互...原创 2020-11-19 10:41:28 · 858 阅读 · 0 评论 -
强化学习——MDP与Q表格
1.强化学习MDP四元组<S,A,P,R>为了方便理解,这里引入了人和熊的例子,当人碰到熊的时候为了生存,在某一时刻是赶紧跑还是躺下装死。状态转移概率仅取决于当前的状态和之前的状态都没有关系,此过程取决于智能体和环境的动作2.状态转移与序列决策3.Model-free试错探索针对环境是未知的或随机的4.Q表格根据长时间人与熊的活动总结出一个价值表格,这个表格即为Q表格举例说明:普通车闯红灯得到的reward是负数,而救护车闯红灯得到的rew原创 2020-11-18 22:59:31 · 2071 阅读 · 0 评论 -
强化学习——基础概念科普
本文的参考资料均来自飞桨PaddlePaddle的强化学习七日课程,这里仅做总结。强化学习的核心思想:智能体agent在环境environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈奖励reward来指导更好的动作。两部分:agent 智能体、environment环境三要素:state状态/ observation观察值、action动作、reward奖励一个生动的例子来说明:强化学习的应用:1.小鸟游戏:小鸟作为agent,当前场景为sta原创 2020-11-18 15:21:25 · 533 阅读 · 0 评论