强化学习(1)

强化学习第一讲

  1. 传统机器学习——有监督学习——回归任务、分类任务
    无监督学习——无标签——K-means——超像素分割Superpixel,根据色差 像素 等差异性 进行分类

  2. 传统机器学习不能做什么?
    实现机器人的特殊舞步
    AlaphaGo

  3. 强化学习
    一般性的框架 学习序列决策任务
    decision making tasks

  4. 强化学习还能做什么?
    管理、控制
    集群的资源管理
    智慧城市——交通灯的控制
    化学反应的优化——优化配比、催化剂等要素
    个性化推荐

强化学习的要素和概念

像婴儿学走路那样
根据正负反馈

不像监督学习有直接反馈,一般是持续数据
对每次行为打分,不告知标准答案,通过不停地试错过程使行为获得高分
通过interaction获得交互
Reward Rt 标量 表示第t个time step的奖赏值,强化学习基于reward假设的
Action 对每次state以及上一状态的reward确定要执行的action,最优策略要最大化reward,所得policy就是action的sequential data
state 当前agent所处的状态
Agent 执行动作的智能体
Environment 将agent当前状态作为输入,并将奖励和下一状态作为输出
Policy 根据当前状态确定下一个操作的策略
Value 长期的平均的总奖赏,相对于短期reward
Model 预测环境接下来会干什么

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值