#学习打卡#
强化学习三要素:演员、环境、奖励;
当前环境s2取决于环境s1以及a1动作;
智能体能提取的动作只是根据不同的情况作出一个具体的反应,而这个反应这个环境越具体,作出的反馈也越具体。而人对于环境可以抽象为类别如游戏中需要不碰到敌人,基于这个原则作出向上或者向下等。所以智能体在理解抽象概念是否意味会远超人的反应动作。
按照策略时间序列任务相比较适合强化学习,下个时间段输入可作为环境的反馈。
#学习打卡#
强化学习三要素:演员、环境、奖励;
当前环境s2取决于环境s1以及a1动作;
智能体能提取的动作只是根据不同的情况作出一个具体的反应,而这个反应这个环境越具体,作出的反馈也越具体。而人对于环境可以抽象为类别如游戏中需要不碰到敌人,基于这个原则作出向上或者向下等。所以智能体在理解抽象概念是否意味会远超人的反应动作。
按照策略时间序列任务相比较适合强化学习,下个时间段输入可作为环境的反馈。