因为工作原因需要运用强化学习相关知识,借此参考DataWhale的资源体系的梳理一遍强化学习的知识。
参考链接:https://github.com/datawhalechina/easy-rl 里面的pdf文档
习题回答
1-1 强化学习的基本结构是什么?
智能体+环境。
- 智能体在环境中获取状态
- 智能体利用这个状态输出一个决策,一个动作
- 环境返回下一个状态,以及一个奖励
- 重复以上过程以在环境中获取最大的收益
1-2 强化学习相对于监督学习为什么训练会更加困难?
监督学习可以基于标签,损失函数来在学习的过程中通过反向传播不断修正自己的预测。
而对于强化学习不能很好的得到反馈快速修正学习,需要不断的试错探索最终获得延迟奖励。
1-3 强化学习的基本特征有哪些?
查看1.1.1
- 会试错探索以获取对环境的理解
- 获取延迟奖励
- 时间因素非常重要,数据非独立同分布。
- 智能体的行为会对后续影响,模型是非稳定的(强化学习里一个非常重要的问题是如何让智能体的行为一直稳定地提升)
1-4 近几年强化学习发展迅速的原因?
- 强化学习得到的模型可以超人类的表现
- 近几年深度学习的快速发展,使得数据科学家将强化学习和深度学习进行结合。可以用深度强化学习实现一个端到端训练的过程。直接输入状态,无需设计策略,就可以输出动作。
- 近几年的硬件的快速发展,算力不断提升,有了更多的GPU
1-5 状态和观测有什么关系?
状态是对世界的完整描述,观测是智能体对状态的部分描述。
- 完全观测:智能体能够观察到环境的所有状态
- 部分观测:智能体智能观测到部分状态
1-6 对于一个强化学习智能体,它由什么组成?
- 策略函数:选取下一个动作
- 价值函数:对当前状态进行估价
- 模型:智能体对这个环境的状态进行了理解
1-7 根据强化学习智能体的不同,我们可以将其分为哪几类?
- 基于价值的智能体
- 显式的学习价值函数,隐式的学习它的策略
- 基于策略的智能体
- 直接学习策略:给与一个状态,返回一个行动概率
- 演员-评论员智能体
- 结合策略和价值
- 基于策略寻找动作,基于价值对动作评估。在原有的策略梯度算法的基础上加速学习。
1-8 基于策略迭代和基于价值迭代的强化学习方法有什么区别?
1-7已经回答
1-9 有模型学习和免模型学习有什么区别?
通过智能体到底有内有学习这个环境模型来分类
- 有模型:它通过学习这个状态的转移来采取动作
- 据环境中的经验,构建一个虚拟世界,同时在真实环境和虚拟世界中学习
- 免模型:没有去直接估计这个状态的转移,也没有环境的具体转移变量。它通过学习价值函数和策略函数进行决策。(即没有一个环境转移的模型)
- 直接与真实环境进行交互来学习到最优策略
免模型强化学习的泛化能力更强,但是所需的数据量更加的大(需要大量的采样来估计状态、动作及奖励函数,从而优化动作
策略)。
1-10 强化学习的通俗理解
在没有及时反馈的情况下,通过不断的自我学习(试错)来获取最终环境的延迟奖励。