《强化学习》基础知识(一)

  1. 强化学习解决什么问题
    ⼀句话概括强化学习能解决的问题:序贯决策问题。

  2. 强化学习如何解决问题,和监督学习的区别
    与之相对的是监督学习,监督学习解决的是智能感知的问题。比如手写体数字识别,通过多样化的标签数据来训练智能体,让智能体学习到输入样本的抽象特征并分类。
    强化学习要解决序贯决策问题,不关心输入长什么样,只关心当前状态下应该采取什么动作才能实现最终的目标,即让整个任务序列达到最优。智能体通过动作和环境交互,环境返给智能体当前状态的回报,智能体根据回报评估采取的动作:有利于实现目标的动作被保留,不利于目标的动作被衰减。通过带有回报的交互数据训练智能体
    强化学习

  3. 强化学习分类
    1)根据是否依赖(环境和智能体)模型分为基于模型的RL和无模型的RL。智能体在探索环境时已知转移概率,回报函数,折扣因子等。基于模型效率更高,无模型更具通用性
    2)根据策略的更新和学习方法分为基于值函数的RL、基于策略搜索的RL和AC(a

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值