无需公式或代码,用生活实例谈谈 AI 自动控制技术“强化学习”算法框架

不用公式、不用代码,白话讲讲强化学习原理

The best way to learn is to teach others.

战胜围棋高手李世石的 AlphaGo ,称霸星际争霸2的 AIphaStar…这些先进的自动控制技术都离不开“强化学习”这个算法框架。有人说,强化学习是一种“试错”技术,是在状态与动作间建立了一种高级的“哈希映射”​。学习强化学习半载,我个人​的心得是:强化学习让实时决策不再“鼠目寸光”​,本文我们就通过​“小赛能否写完假期作业”这个生活实例来谈谈。

在说强化学习之前,我们先来聊聊他的两个兄弟:监督学习和无监督学习。

监督学习

监督学习就是,你喂给机器一堆有标签的数据,比如下表这样。

特征值 标签
小明, 爱穿裙子, 出门前化妆 女孩
小张, 不穿裙子, 出门前不妆 男孩
小何, 爱穿裙子, 出门前不妆 男孩

经过对有标签数据的训练/学习后,我们就得到了一个分类器/回归器,可以根据无标签的数据推测出其标签。

特征值 AI所推测出的标签
小钗, 爱穿裙子, 出门前化妆 女孩
小黛, 爱穿裙子, 出门前化妆 女孩
小盘, 不穿裙子, 出门前不妆 男孩

无监督学习

无监督学习就是,你喂给机器一堆无标签的数据,比如下表这样。

特征值 标签
(1,1,1,1) None
(1,4,-2,3) None
(-1,2,0,0) None
(1000,-2,4,1) None
(0,1,-2,0) None

经过对上述数据的

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值