- 博客(10)
- 收藏
- 关注
原创 fastDFS分布式集群踩坑
1.上传文件时,设置为轮询状态时,还是只能上传到一个group。原因另一个另一个group的storage没有启动。
2022-10-10 22:17:22 188 1
原创 RL -数学基础及环境
1.1马尔科夫性质:在时间t+1时,环境的反馈仅取决于上一时间步t的状态s和动作a,与时间t-1以及t-1步之前的时间步都没有关联。由此可知 马尔科夫性具有无后效性。即系统的下一状态只与当前状态有关。1.2马尔可夫决策过程有一个四元组组成价值v:智能体在策略下所获得的的累积奖励的期望策略:确定性策略:a=π(s),表示策略根据状态s选择动作a,这是一个确定性的过程,即中间没有出现概率,因此不需要选择,。其中策略表示为函数。**随机性策略:**π(s,a),表示策略在状态s下选择动作a的概率,
2020-08-22 09:27:19 923
原创 Gym
1.Gym的基本用法1.1Gym对空间的定义Wrapper:我们有时需要对环境做 些改变,扩展新的功能,这就需要对环境代码做改变 为了更方便地扩展, Gym中定义了 Wrapper 这个类,它可以在既有环境的基础上添加更多的功能。这个类在创建时需要传入一个 env 对象,它是一个已建好的环境对象,这个对象可能是 env 本身,也可能是已经被封装过的 env类。例子 蛇棋...
2020-06-16 14:07:10 205
原创 马尔可夫决策过程--周博磊
1.马尔科夫链一个状态的下一个状态只与当前状态有关与其他状态无关ht包含了之前的所以状态状态转移矩阵P,矩阵P第一行表示S1转移到下一个状态的概率马尔科夫链的例子马尔科夫奖励过程R:奖励函数是一个期望。当你到达某个状态是可以得到多大的奖励。回报和价值函数Horizon:同一个episode的游戏环节或者整个轨迹的长度,有有限步骤决定的Return:收益,把奖励进行折扣产...
2020-05-01 17:20:18 432
原创 强化学习通俗介绍
什么是强化学习RL 采用动态环境数据。其目标并不是对数据进行分类或标注,而是确定生成最优结果的最佳动作序列。为了解决这个问题,强化学习通过一个软件(即所谓的代理)来探索环境、与环境交互并从环境中学习。图解:剖析强化学习代理中有一个函数可接收状态观测量(输入),并将其映射到动作集(输出)。也就是前面讨论过的单一函数,它将取代控制系统的所有独立子组件。在 RL 命名法中,此函数称之为策略。策...
2020-04-12 20:22:29 1223
翻译 2.有限的马尔可夫决策过程
环境:智能体之外所以与之相互作用的事物。智能体:进行学习及实时决策的机器。在有限的MDP中,状态,动作和收益的集合(S,A,R)都只有有限个元素。目标和收益收益:在强化学习中,智能体的目标被形式化表征为一种特殊信号,收益通过环境传递给智能体。收益都是单一的标量数值。回报...
2020-02-12 14:47:39 389
翻译 RL笔记—导论
**Chapter1**Introduction在交互中学习是几乎所有学习和智能理论的基本思想。我们将讨论如何设计高效的机器来解决科学或经济领域的学习问题,并通过数学分析或计算机实验的方式来评估这些设计,我们所探索的方法称之为“强化学习”。相1比较于机器学习,强化学习更加侧重于以交互目标为导向进行学习。1.1 强化学习强化学习就是学习做什么(即如何把当前的情景映射成动作)才能使数值化的...
2020-02-09 10:42:21 358
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人