不用公式、不用代码,白话讲讲强化学习原理
The best way to learn is to teach others.
战胜围棋高手李世石的 AlphaGo ,称霸星际争霸2的 AIphaStar…这些先进的自动控制技术都离不开“强化学习”这个算法框架。有人说,强化学习是一种“试错”技术,是在状态与动作间建立了一种高级的“哈希映射”。学习强化学习半载,我个人的心得是:强化学习让实时决策不再“鼠目寸光”,本文我们就通过“小赛能否写完假期作业”这个生活实例来谈谈。
在说强化学习之前,我们先来聊聊他的两个兄弟:监督学习和无监督学习。
监督学习
监督学习就是,你喂给机器一堆有标签的数据
,比如下表这样。
特征值 | 标签 |
---|---|
小明, 爱穿裙子, 出门前化妆 | 女孩 |
小张, 不穿裙子, 出门前不妆 | 男孩 |
… | … |
小何, 爱穿裙子, 出门前不妆 | 男孩 |
经过对有标签数据的训练
/学习
后,我们就得到了一个分类器
/回归器
,可以根据无标签的数据
推测出其标签。
特征值 | AI所推测出的标签 |
---|---|
小钗, 爱穿裙子, 出门前化妆 | 女孩 |
小黛, 爱穿裙子, 出门前化妆 | 女孩 |
小盘, 不穿裙子, 出门前不妆 | 男孩 |
无监督学习
无监督学习就是,你喂给机器一堆无标签的数据
,比如下表这样。
特征值 | 标签 |
---|---|
(1,1,1,1) | None |
(1,4,-2,3) | None |
(-1,2,0,0) | None |
(1000,-2,4,1) | None |
… | … |
(0,1,-2,0) | None |