强化学习
文章平均质量分 99
Stan Fu
这个作者很懒,什么都没留下…
展开
-
强化学习(九)- 策略梯度方法 - 梯度上升,黑箱优化,REINFORCE算法及CartPole实例
在之前介绍的方法中,几乎所有方法都是动作价值方法(action-value Method),通过学习动作价值并基于动作价值来学做动作。如果没有行动价值评估,他们的策略甚至不会存在。但在这个部分我们将考虑学习**参数化策略**的方法,这些方法可以在不考虑价值函数的情况下选择动作。价值函数仍然可以用于学习策略参数,但对于动作选择是不必要的。我们使用$\theta \in\mathbb{R}^{d'}$来表示策略的参数向量。所以使用$\pi(a|s, \theta) = Pr\{A_t = a|S_t = s,原创 2020-12-07 21:28:59 · 3624 阅读 · 1 评论 -
强化学习(八) - 深度Q学习(Deep Q-learning, DQL,DQN)原理及相关实例
深度Q学习将深度学习和强化学习相结合,是第一个深度强化学习算法。深度Q学习的核心就是用一个人工神经网来代替动作价值函数。由于神经网络具有强大的表达能力,能够自动寻找特征,所以采用神经网络有潜力比传统人工特征强大得多。。最近基于深度Q网络的深度强化学习算法有了重大的进展,在目前学术界有非常大的影响力。当同时出现异策、自益和函数近似时,无法保证收敛性,会出现训练不稳定或训练困难等问题...原创 2020-11-13 21:07:36 · 14682 阅读 · 2 评论 -
强化学习(七) - 函数近似方法 - 随机梯度下降, 半梯度下降,及瓦片编码(Tile Coding)实例
本节介绍用函数近似(function approximation)方法来估计给定策略π的状态价值函数v_π或动作价值函数q_π。原创 2020-10-12 22:08:58 · 4439 阅读 · 0 评论 -
强化学习(六) - 连续空间中的强化学习(RL in Continuous Spaces)及相关实例
6.1 离散空间和连续空间在之前的实例中,状态和动作的数量受到限制。使用小的,有限的马尔可夫决策过程(MDP),可以用表,字典或其他有限结构来表示动作值函数。例如,考虑下面的非常小的gridworld。假设世界有四个可能的状态,并且代理有四个可能的操作可供使用(上,下,左,右)。您在前面的课程中了解到,我们可以在表中表示估计的最佳操作值函数,每个状态对应一个行,每个动作对应一个列。我们将此表称为Q表。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BnBR6zFE-16原创 2020-10-09 16:04:56 · 12416 阅读 · 1 评论 -
强化学习(五) - 时序差分学习(Temporal-Difference Learning)及其实例----Sarsa算法, Q学习, 期望Sarsa算法
如果非要找出一种思想作为强化学习的核心和新意,那无疑是时序差分学习(Temporal-Difference Learning) 或者称为 时序差分迭代法,以下简称为TD。TD学习是蒙特卡洛思想和动态编程(DP)思想的结合。与蒙特卡洛方法一样,TD方法可以直接从原始经验中学习,而不需要环境的动态模型。和DP一样,TD方法部分地根据其他学习到的估计值更新估计值,而不需要等待最终的结果(它们是引导式的)。TD、DP和蒙特卡洛方法之间的关系是强化学习理论中一个反复出现的主题。原创 2020-09-16 05:04:11 · 3303 阅读 · 5 评论 -
强化学习(四) - 蒙特卡洛方法(Monte Carlo Methods)及实例
蒙特卡罗方法是我们第一个用于估计价值函数和发现最优策略的学习方法。与之前动态规划不同的是,这里我们不假设对环境的完全了解。蒙特卡洛方法只需要状态、动作和与环境实际或模拟交互的奖励的经验样本序列。从实际经验中学习是引人注目的,因为它不需要事先了解环境的动态,但仍然可以达到最佳行为。从模拟经验中学习也很强大。虽然需要一个模型,但模型只需要生成样本转换,而不是动态规划(DP)所需要的所有可能转换的完整概率分布。在许多情况下,根据所需的概率分布抽样生成经验很容易,但以显式形式获得分布却不可行。原创 2020-09-11 04:14:09 · 13901 阅读 · 0 评论 -
强化学习(三) - Gym库介绍和使用,Markov决策程序实例,动态规划决策实例
相关代码参考了《深度强化学习原理与python实现》与Udacity的课程《Reinforcement Learning》。按照上面的过程,会引入Gym强化环境库。Gym库是OpenAI推出的强化学习实验环境库,它用python语言实现了离散时间智能体/环境接口中的环境部分。除了依赖少量的商业库外,整个项目时开源免费的。Gym库内置上百种实验环境,包括以下几类。算法环境:包括一些字符串处理等传统计算机方法的实验环境。简单文本环境:包括几个用文本表示的简单游戏。经典控制环境:包括一些简单几何体原创 2020-08-16 08:16:29 · 17397 阅读 · 6 评论 -
强化学习(二)- 动态规划(Dynamic Programming)
3.动态规划3.1 介绍术语动态规划(DP:Dynamic Programming) 指的是一个算法集合,可以用来计算最优策略,给定一个完美的环境模型,作为马尔可夫决策过程(MDP)。经典的DP算法在强化学习中的应用有限,因为它们的假设是一个完美的模型,而且计算量大,但它们仍然具有重要的理论意义。DP为理解其余部分中介绍的方法提供了必要的基础。实际上,所有这些方法都可以被看作是实现与DP几乎相同的效果的尝试,只不过计算量更少,而且没有假设一个完美的环境模型。我们通常假设环境是一个有限的MDP。也就是说原创 2020-07-21 01:22:03 · 988 阅读 · 0 评论 -
强化学习(一)- 强化学习介绍、Markov决策过程和贝尔曼期望方程
强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。 – wikipedia主要用到的资源:《Reinforcement.原创 2020-07-14 08:06:24 · 5087 阅读 · 0 评论