强化学习
机器学习的强化学习部分
闷骚的小蝎子
这个作者很懒,什么都没留下…
展开
-
强化学习之马尔科夫过程与马尔科夫链(附py代码,因为是自己打的,没完成的功能慢慢打)
1.马尔可夫过程 1.1马尔可夫性或无后效性 马尔可夫过程最显著的特点是:如果在已知目前过程状态的条件下,过程未来的演变不依赖于它以往的演变。 即当随机过程时刻 ti 的状态已知的情况下,过程在t >ti所处的状态与过程在时刻 ti 以前的状态无关,而仅与过程在t时刻的状态有关。 如果X(t)满足了这个条件,则X(t)满足马尔可夫性 1.2马尔科夫过程的分类 2.马尔科夫链的转移概率及性质 2.1转移概率 2.2转移概率矩阵 同理可得n步转移概率矩阵: 2.3切普曼-柯尔莫哥洛夫方程(C原创 2020-06-17 10:47:01 · 1923 阅读 · 0 评论 -
机器学习——强化学习概述
强化学习中,一般用智能体Agent作为动作的发出者,通过与环境Environment的交互获得奖励Reward,那么强化学习考虑的问题就是智能体Agent和环境Environment之间交互的任务。比如一个智能体要走到桌子旁边,那么这个智能体所全部能接收感知的信息周围就是环境,而智能体所能接收到的环境信息称之为观察Observation,而观察的集合就是智能体所处的状态,称之为State。当智能体发出一个动作后,相应的环境和接收到的环境也会发生改变,而环境带给你的反馈就是Reward。假如智能体现在向前走了转载 2020-06-20 22:52:41 · 507 阅读 · 0 评论