强化学习的主要目的是在环境中互动为达成目标进行学习,其实就像我们学高数一样,通过不断的学习获得知识,也通过不断做题学习解决方法,学习参考答案的方法,也有自己的解法。
通常网络上的是以游戏举例:
①基本元素:agent environment goal
②主要元素:state action reward
③核心元素:policy value
其中打算根据赵世钰老师学习相关数学模型,根据李宏毅老师学习基础知识以及学习Python的实战演练。
强化学习的数学模型主要分为两个方面,分别是基础工具和算法:
基础工具:
(1)Basic Concepts
(2)Bellman Equation
(3)Bellman Optimality Equatiopn
算法:
(1)value iteration
(2)Policy iteration
(3)value iteration 与 Policy iteration 的结合 即Truncated Policy iteration
(4)Monte Carlo learning
(5)Stochastic Approximation 随机近似理论
(6)Temporal-Difference learning 时序差分学习
(7)Value Fuction Apporximation
(8)Policy Gradient Methods
(9)Actor-Critic Methods
以上主要是对赵老师第一节课的相关课堂笔记,个人目前认为强化学习需要长时间的架构,可能面临构建模型跑代码需要很长时间,加油加油。