强化学习
飓风神龙
这个作者很懒,什么都没留下…
展开
-
Paddle强化学习从入门到实践 (Day5):连续动作空间的求解
离散空间和连续空间之前我们做出的决策都是基于离散状态的,简单来说是类似于在做“选择题”。而连续的动作,我们输出的将不是某个动作,而是更加细致的动作的程度,类比深度学习的分类任务与回归任务。当然,具体选何种模型可以根据具体情况灵活选择,有时离散动作和连续动作之间是可以灵活转换的。选择回归模型,那么意味着输出动作种类是无限多的,因此为了减少不确定性,使用连续动作输出的模型时,使用的是确定性策略,即同样的输入会得到同样的输出,而随即策略是有一定的概率得到不同的输出结果的。用于连续动作输出的值我原创 2020-06-23 19:51:35 · 1471 阅读 · 1 评论 -
Paddle强化学习从入门到实践 (Day1)
强化学习简介定义:强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。核心思想:智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈 reward(奖励)来指导更好的动作。简单归结为下图: 注意:从环境中获取的状态,有时候叫s...原创 2020-06-17 23:20:39 · 801 阅读 · 0 评论 -
Paddle强化学习从入门到实践 (Day4)基于策略梯度求解RL:PG算法
基于值与基于决策在强化学习中,有两大类方法,一种基于值(Value-based),一种基于策略(Policy-based)Value-based的算法的典型代表为Q-learning和SARSA,将Q函数优化到最优,再根据Q函数取最优策略。 Policy-based的算法的典型代表为Policy Gradient,直接优化策略函数。两者的区别一目了然,即一种是根据价值以确定的方案去决策,另一种直接一步到位得出决策的结果,而不是依次计算每个状态的奖励后去逐步做决策的。随机策略在原创 2020-06-21 15:53:25 · 905 阅读 · 0 评论 -
Paddle强化学习从入门到实践 (Day3)基于深度学习的方法:DQN
背景简介在现实场景中有很多情况,我们无法简单的抽象为一些离散的状态(或者离散后状态过多),导致我们没有办法使用基于表格的方法,那么此时我们就应该引入深度学习的方法来帮我们感知状态,充当Q函数来求此状态下各Action的Q。值函数就是Q函数,Q表格的作用就是可以根据输入状态的动作来查表并输出Q值表格方法的缺点:表格可能占用极大内存 当表格极大时,查表效率低下那么实际上,我们就可以用带参数的Q函数来近似Q表格,比如可以用多项式函数或者神经网络使用值函数近似的优点:仅需存储有限的参数 状原创 2020-06-21 00:43:00 · 578 阅读 · 0 评论 -
Paddle强化学习从入门到实践 (Day2)基于表格的方法:Sarsa和Q-learning
SarsaSarsa全称是state-action-reward-state'-action',目的是学习特定的state下,特定action的价值Q,最终建立和优化一个Q表格,以state为行,action为列,根据与环境交互得到的reward来更新Q表格,更新公式为: Sarsa在训练中为了更好的探索环境,采用ε-greedy方式来训练,有一定概率随机选择动作输出。Q-learningQ-learning也是采用Q表格的方式存储Q值(状态动作价值),决策部分与Sarsa是一...原创 2020-06-18 13:38:54 · 409 阅读 · 0 评论