强化学习
文章平均质量分 91
bymaymay
不念过去,不惧未来!
展开
-
强化学习(四)- 动态规划基础知识
动态规划(Dynamic Programming)通常用于解决最优化问题,可采用动态规划方法求解的问题需要具备以下两个特性:最优子结构(Optimal Substructure)和子问题重叠(Overlapping Subproblems)。如果一个问题可以分解成若干个子问题,若原问题的最优解由其子问题的最优解组合而成,并且这些子问题可以独立求解,则该问题具有最优子结构特性;若子问题之间存在重叠的子问题,则该问题具有子问题重叠特性。回顾 Fibonacci 数列求解问题,fib(n) \mat原创 2022-03-04 20:25:31 · 386 阅读 · 0 评论 -
强化学习(三)- 算法基础知识
算法基础知识在讲解动态规划前,我们先回顾计算机算法的相关基础知识。分治策略(Divide-and-Conquer)是采用分而治之的思想,将难以直接求解的问题分解成若干容易求解的子问题,通过对子问题进行各个击破,最终合并子问题的解来获得原问题的解。分治策略主要包含三个步骤:(1) 分解(Divide),将原问题分解为多个子问题。(2) 解决(Conquer),逐个解决子问题。(3) 合并(Combine),将子问题的解合并得到原问题的解。分治策略是一种求解问题的思想,使用分治策略的常见算法有分治算法原创 2022-03-04 19:46:12 · 507 阅读 · 0 评论 -
强化学习(二)- 马尔可夫决策过程
马尔可夫决策过程在可完全观测的情况下,系统环境与智能体之间的交互过程是,智能体根据观察到的环境状态St∈SS_t\in SSt∈S,从可行的动作集AAA中选择一个动作AtA_tAt 作出决策,系统根据其状态转移概率矩阵P\bm{P}P转移到新状态St+1S_{t+1}St+1,并针对智能体的行动AtA_tAt 给出相应的奖励Rt+1R_{t+1}Rt+1,智能体根据新观察到的状态St+1S_{t+1}St+1重新进行下一步的动作At+1A_{t+1}At+1。强化学习过程是解决序贯决策问题原创 2022-03-04 16:39:25 · 466 阅读 · 0 评论 -
强化学习(一)- 强化学习基础
定义强化学习(Reinforcement Learning,RL)是智能体(Agent)为了最大化长期回报(Return)的期望,通过观察系统环境,不断试错(Trial-and-Error)进行学习的过程。从强化学习的定义可以看出,强化学习具有两个最主要的特征:通过不断试错来学习;追求长期回报的最大化。强化学习的框架一般包含5个构成要素,包括:环境(Environment);智能体(Agent);观察(Observation);行动(Action);奖励(Reward)。强化学原创 2022-02-15 22:49:50 · 4082 阅读 · 0 评论