第一章 Reinforcement Learning
问题1:请简述什么是强化学习
强化学习包含环境, 动作和奖励三部分, 其本质是 agent 通过与环境的交互, 使得其作出的 action所得到的决策得到的总的奖励达到最大, 或者说是期望最大。
强化学习(Reinforcement Learning):智能体在与复杂且不确定的 环境进行交互时,使所获得的收益最大化的计算算法。
强化学习是智能体学习如何在环境中采取一系列行为,从而获得最大化的累积回报。强化学习是从环境状态到动作的映射的学习,我们把这个映射称为策略。
问题2:请说明强化学习的使用场景
答: 七个字的话就是多序列决策问题。或者说是对应的模型未知, 需要通过学习逐渐逼近真实模型的问题并且当前的动作会影响环境的状态, 即服从马尔可夫性的问题。同时应满足所有状态是可重复到达的 (满足可学习型的)。
问题3:请简述 强化学习的特征
问题4:请举例生活中强化学习的例子
问题5: 基于价值函数的迭代和基于策略函数的迭代的强化学习方法有什么区别?
policy-based(基于策略的):Agent 会制定一套动作策略(确定在给定状态下需要采取何种动作),并根据这个策略进行操作。强化学习算法直接对策略进行优化,使制定的策略能够获得最大的奖励。
valued-based(基于价值的):Agent 不需要制定显式的策略,它维护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。
问题6:请简述什么是有模型学习?什么是无模型学习?
• model-based(有模型结构):Agent 通过学习状态的转移来采取措施。
• model-free(无模型结构):Agent 没有去直接估计状态的转移,也没有得到 Environment 的具体转移变量。它通过学习 value function 和 policy function 进行决策。
当智能体知道状态转移函数 P(st+1|st , at) 和奖励函数 R(st , at) 后,它就能知道在某一状态下执行某一动作后能带来的奖励和环境的下一状态,这样智能体就不需要在真实环境中采取动作,直接在虚拟世界中学习和规划策略即可。这种学习方法称为有模型学习。
免模型学习没有对真实环境进行建模,智能体只能在真实环境中通过一定的策略来执行动作,等待奖励和状态迁移,然后根据这些反馈信息来更新行为策略,这样反复迭代直到学习到最优策略。
第二章 MDP
请简述 马尔可夫性质
如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。也就是说未来的转移跟过去是独立的,它只取决于现在。