1、强化学习的基本结构是什么?
智能体和环境。智能体基于当前状态,采取动作,环境给出反馈也就是奖励,再去更新当前的状态。
2、强化学习相对于监督学习为什么训练过程会更加困难?
- 监督学习的样本一般是相互独立的,而强化学习的样本是时序相关的。
- 监督学习是有标签的可以学习的,而强化学习并没有标签,只有环境给的奖励,并且奖励并不是实时的。
3、强化学习的基本特征有哪些?
- 智能体探索环境,获得延迟的奖励
- 强化学习的数据是时间关联的数据,智能体动作会影响接下来的状态
4、近几年强化学习发展迅速的原因?
- 不需要有监督式的样本
- 强化学习的智能体是可能实现真正意义上的超越人类的智能
5、状态和观测有什么关系?
- 状态包括观测。
6、一个强化学习智能体由什么组成?
- 策略
- 价值函数
- 模型
7、根据强化学习智能体的不同,我们可以将它分为哪几类?
- 基于价值的智能体和基于策略的智能体
- 有模型强化学习智能体和免模型强化智能体
8、基于策略和基于价值的强化学习方法有什么区别?
- 基于策略的强化学习,是指智能体根据策略做出动作,代表梯度下降,试用大规模环境,连续空间
- 基于价值的强化学习,是指智能体根据价值函数做出动作,代表Q-learning,试用小规模环境,离散空间
9、有模型强化学习和免模型强化学习有什么区别?
- 有模型强化学习,需要对真实环境建模一个虚拟环境,同时与两个环境交互学习。
- 免模型强化学习直接与真实环境进行学习。
10、如何通俗理解强化学习?
- 基于现有状态,结合历史经验,进行利用和探索的权衡