1.初识强化学习(RL) 2.课程基础 3.资料学习 4.基本概念 核心思想:智能体agent在环境environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈reward(奖励)来指导更好的动作。 特点: 不断和环境交互,观察和输出动作奖励延迟 应用场景: 游戏个性推荐股票 交通 强化学习与监督学习的区别: