第六章强化学习
问题1 什么是强化学习?如何用马尔可夫决策过程来描述强化学习?
强化学习主要由智能体和环境两部分组成。如果智能体的某个策略获得了环境的奖励信号,那么他在相似环境下采取这个策略的趋势就会加强。相反,如果某个策略获得了惩罚,那么在相似环境下智能体会避开这个行为策略。
状态集合、动作集合、状态转移函数、奖励函数。
问题2 强化学习中的有模型学习和免模型学习有什么区别?
针对是否对真实环境进行建模。有模型学习是指根据环境中的静安,构建一个虚拟世界,同时在真实环境和虚拟环境中学习;免模型学习是指不对环境进行建模,直接与真实环境进行交互来学习到最优策略。
当智能体知道状态转移函数和奖励函数后,它就能只能在某一状态下执行某一动作后所能带来的奖励和环境的下一状态,这样智能体就不需要在真实环境中采取动作,直接在虚拟世界中学习和规划策略就行,称之为有模型学习。
思考在智能体执行动作之前是否能对下一步的状态和奖励进行预测,如果可以则对环境进行建模。
免模型需要大量的采样来估计状态、动作及奖励函数,从而优化动作策略。
问题3 基于策略迭代和基于价值迭代的强化学习有什么区别?
基于策略迭代,智能体会指定一套动作策略,并根据这个策略进行擦偶哦。强化学习算法直接对策略进行优化,使制定的策略能够获得最大的奖励。
基于值迭代,维护一个价值表格,并通过这个价值表格来选取价值最大的动作。
问题1 距离说明时序差分强化学习和蒙特卡洛强化学习的区别?
时序差分强化学习是指在不清楚马尔可夫状态转移概率的情况下,以采样的方式得到不完整的状态序列,估计某个状态在该序列完整后可能得到的收益,并通过不断的采样持续更新价值。
蒙特卡洛强化学习则需要经历完整的状态序列,再来更新状态的真实价值。
问题2 什么是Q-learning
是非常典型的时序差分强化学习算法,也是基于价值迭代的强化学习算法。需要定义策略的动作价值函数,以表示在不同状态下动作的价值。贪心策略选择获得最大价值的动作