task2

#学习打卡#

强化学习三要素:演员、环境、奖励;

当前环境s2取决于环境s1以及a1动作;

智能体能提取的动作只是根据不同的情况作出一个具体的反应,而这个反应这个环境越具体,作出的反馈也越具体。而人对于环境可以抽象为类别如游戏中需要不碰到敌人,基于这个原则作出向上或者向下等。所以智能体在理解抽象概念是否意味会远超人的反应动作。

按照策略时间序列任务相比较适合强化学习,下个时间段输入可作为环境的反馈。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值