强化学习系列
胶囊一号
这个作者很懒,什么都没留下…
展开
-
RL -数学基础及环境
1.1马尔科夫性质:在时间t+1时,环境的反馈仅取决于上一时间步t的状态s和动作a,与时间t-1以及t-1步之前的时间步都没有关联。由此可知 马尔科夫性具有无后效性。即系统的下一状态只与当前状态有关。1.2马尔可夫决策过程有一个四元组组成价值v:智能体在策略下所获得的的累积奖励的期望策略:确定性策略:a=π(s),表示策略根据状态s选择动作a,这是一个确定性的过程,即中间没有出现概率,因此不需要选择,。其中策略表示为函数。**随机性策略:**π(s,a),表示策略在状态s下选择动作a的概率,原创 2020-08-22 09:27:19 · 922 阅读 · 0 评论 -
Gym
1.Gym的基本用法1.1Gym对空间的定义Wrapper:我们有时需要对环境做 些改变,扩展新的功能,这就需要对环境代码做改变 为了更方便地扩展, Gym中定义了 Wrapper 这个类,它可以在既有环境的基础上添加更多的功能。这个类在创建时需要传入一个 env 对象,它是一个已建好的环境对象,这个对象可能是 env 本身,也可能是已经被封装过的 env类。例子 蛇棋...原创 2020-06-16 14:07:10 · 205 阅读 · 0 评论 -
马尔可夫决策过程--周博磊
1.马尔科夫链一个状态的下一个状态只与当前状态有关与其他状态无关ht包含了之前的所以状态状态转移矩阵P,矩阵P第一行表示S1转移到下一个状态的概率马尔科夫链的例子马尔科夫奖励过程R:奖励函数是一个期望。当你到达某个状态是可以得到多大的奖励。回报和价值函数Horizon:同一个episode的游戏环节或者整个轨迹的长度,有有限步骤决定的Return:收益,把奖励进行折扣产...原创 2020-05-01 17:20:18 · 431 阅读 · 0 评论 -
强化学习通俗介绍
什么是强化学习RL 采用动态环境数据。其目标并不是对数据进行分类或标注,而是确定生成最优结果的最佳动作序列。为了解决这个问题,强化学习通过一个软件(即所谓的代理)来探索环境、与环境交互并从环境中学习。图解:剖析强化学习代理中有一个函数可接收状态观测量(输入),并将其映射到动作集(输出)。也就是前面讨论过的单一函数,它将取代控制系统的所有独立子组件。在 RL 命名法中,此函数称之为策略。策...原创 2020-04-12 20:22:29 · 1217 阅读 · 0 评论