强化学习开篇-那些问123

强化学习涉及智能体与环境的互动,通过尝试不同动作获取奖励来学习最优策略。相比监督学习,其训练更复杂,因样本时序相关且无明确标签。近年来发展迅速,因其潜力在于无需监督样本且能超越人类智能。强化学习智能体可分为基于价值和基于策略两类,以及有模型和免模型两种方法,每种都有其适用场景和特点。
摘要由CSDN通过智能技术生成

1、强化学习的基本结构是什么?

      智能体和环境。智能体基于当前状态,采取动作,环境给出反馈也就是奖励,再去更新当前的状态。

2、强化学习相对于监督学习为什么训练过程会更加困难?

  • 监督学习的样本一般是相互独立的,而强化学习的样本是时序相关的。
  • 监督学习是有标签的可以学习的,而强化学习并没有标签,只有环境给的奖励,并且奖励并不是实时的。

3、强化学习的基本特征有哪些?

  • 智能体探索环境,获得延迟的奖励
  • 强化学习的数据是时间关联的数据,智能体动作会影响接下来的状态

4、近几年强化学习发展迅速的原因?

  • 不需要有监督式的样本
  • 强化学习的智能体是可能实现真正意义上的超越人类的智能

5、状态和观测有什么关系?

  • 状态包括观测。

6、一个强化学习智能体由什么组成?

  • 策略
  • 价值函数
  • 模型

7、根据强化学习智能体的不同,我们可以将它分为哪几类?

  • 基于价值的智能体和基于策略的智能体
  • 有模型强化学习智能体和免模型强化智能体

8、基于策略和基于价值的强化学习方法有什么区别?

  • 基于策略的强化学习,是指智能体根据策略做出动作,代表梯度下降,试用大规模环境,连续空间
  • 基于价值的强化学习,是指智能体根据价值函数做出动作,代表Q-learning,试用小规模环境,离散空间

9、有模型强化学习和免模型强化学习有什么区别?

  • 有模型强化学习,需要对真实环境建模一个虚拟环境,同时与两个环境交互学习。
  • 免模型强化学习直接与真实环境进行学习。

10、如何通俗理解强化学习?

  • 基于现有状态,结合历史经验,进行利用和探索的权衡
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值