无需公式或代码,用生活实例谈谈 AI 自动控制技术“强化学习”算法框架

本文通过无需公式和代码的方式,深入浅出地讲解强化学习原理,以寒假作业为例,探讨如何利用强化学习帮助学生做出最佳决策。文中对比了监督学习和无监督学习,并解释了强化学习如何在不断试错中实现远视决策,最后介绍了强化学习的特点及其在实际问题中的应用。
摘要由CSDN通过智能技术生成

不用公式、不用代码,白话讲讲强化学习原理

The best way to learn is to teach others.

战胜围棋高手李世石的 AlphaGo ,称霸星际争霸2的 AIphaStar…这些先进的自动控制技术都离不开“强化学习”这个算法框架。有人说,强化学习是一种“试错”技术,是在状态与动作间建立了一种高级的“哈希映射”​。学习强化学习半载,我个人​的心得是:强化学习让实时决策不再“鼠目寸光”​,本文我们就通过​“小赛能否写完假期作业”这个生活实例来谈谈。

在说强化学习之前,我们先来聊聊他的两个兄弟:监督学习和无监督学习。

监督学习

监督学习就是,你喂给机器一堆有标签的数据,比如下表这样。

特征值 标签
小明, 爱穿裙子, 出门前化妆 女孩
小张, 不穿裙子, 出门前不妆 男孩
小何, 爱穿裙子, 出门前不妆 男孩

经过对有标签数据的训练/学习后,我们就得到了一个分类器/回归器,可以根据无标签的数据推测出其标签。

特征值 AI所推测出的标签
小钗, 爱穿裙子, 出门前化妆 女孩
小黛, 爱穿裙子, 出门前化妆 女孩
小盘, 不穿裙子, 出门前不妆 男孩

无监督学习

无监督学习就是,你喂给机器一堆无标签的数据,比如下表这样。

<
特征值 标签
(1,1,1,1) None
(1,4,-2,3) None
(-1,2,0,0) None
(1000,-2,4,1) None
(0,1,-2,0) None
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值