强化学习第一讲
-
传统机器学习——有监督学习——回归任务、分类任务
无监督学习——无标签——K-means——超像素分割Superpixel,根据色差 像素 等差异性 进行分类 -
传统机器学习不能做什么?
实现机器人的特殊舞步
AlaphaGo -
强化学习
一般性的框架 学习序列决策任务
decision making tasks -
强化学习还能做什么?
管理、控制
集群的资源管理
智慧城市——交通灯的控制
化学反应的优化——优化配比、催化剂等要素
个性化推荐
强化学习的要素和概念
像婴儿学走路那样
根据正负反馈
不像监督学习有直接反馈,一般是持续数据
对每次行为打分,不告知标准答案,通过不停地试错过程使行为获得高分
通过interaction获得交互
Reward Rt 标量 表示第t个time step的奖赏值,强化学习基于reward假设的
Action 对每次state以及上一状态的reward确定要执行的action,最优策略要最大化reward,所得policy就是action的sequential data
state 当前agent所处的状态
Agent 执行动作的智能体
Environment 将agent当前状态作为输入,并将奖励和下一状态作为输出
Policy 根据当前状态确定下一个操作的策略
Value 长期的平均的总奖赏,相对于短期reward
Model 预测环境接下来会干什么