我是实小楼，万万没想到，强化学习帮我走出了迷宫

最新推荐文章于 2023-09-18 01:20:29 发布

实验楼v

最新推荐文章于 2023-09-18 01:20:29 发布

阅读量378

点赞数

原文链接：https://www.shiyanlou.com/courses/1366/?sources=weixin

版权

（文末有福利哦）

我叫实小楼

万万没想到

我被困在迷宫里走不出来了……

640?wx_fmt=png

看到图中身处迷宫入口

一脸懵逼的小狮子没？

那就是我

今天老板把我扔在了这儿

说是要惩罚我

“走不出迷宫，

实验楼就准备换吉祥物了！”

640?wx_fmt=png

好吧，我承认

前几天我确实膨胀了：

在实验楼吃喝玩乐

干扰同事工作

没尽好吉祥物的本分

可我还是个孩子啊

太无情了

而且为毛会是走迷宫这种奇葩惩罚

我 tm 可真是太难了

“你可别墨迹了

小脑斧? 梅发怒? 小海疼?

已经来我这报名了

还想不想干了”

迷宫入口挂的喇叭高声嚷着

惹不起惹不起

强装镇定的

我一只爪子迈进了入口

？？？

这里为啥都一毛一样

一点参照物都没有

？？？

等等

这个路口我好像来过···

？？？

完了已经迷路了咋整……

还是用绝招吧：

“点兵点将、骑马打仗

点到是谁，跟到我走

要是不走，你是小狗……”

就这样，我点了十轮

可还是在原地打转

—— 绝望了

就在迷宫里躺尸算了

我叫实小楼

万万没想到

我最终还是从迷宫里走了出来

正当我绝望的时候

从天而降了一个小玩意儿

我拾掇起来一看

“迷宫辅助装置”

640?wx_fmt=jpeg

这玩意儿咋用也不知道

先走一截试试

眼前还是有无数路口

随便选一个吧

刚要走，辅助装置出声了

“这里是一条死路”

就听它的吧

退了回来，换一个路口走

之后我便一直听它的提示

遇到死路时

就及时换一条道

终于……

我走到了出口

也听到辅助器说：

“这是一条正确道路”

看来

吉祥物的名分

算是保住了 ···

回到实验楼我才知道

原来让我走迷宫

不只是为了惩罚我

更是为了测试新产品

没错，就是救我一命的辅助装置就是——

强化学习！

640?wx_fmt=png

强化学习是机器学习的重要分支

它强调如何基于环境而行动

以取得最大化的预期利益

强化学习的过程一般包含 5 个要素

分别是

智能体（Agent）

环境（Environment）

行为（Action）

状态（State）

奖励（Reward）

640?wx_fmt=png

以走迷宫为例：

小狮子就是智能体（Agent）

而迷宫就是所处的环境（Environment）

当小狮子尝试走出迷宫时

小狮子在每一个格子

都可以产生 4 种行为

向上向下向左向右

每当做一种行为时

迷宫都会给小狮子一个奖励

奖励可能是正向的

也可能是消极的

那什么是状态呢

每当小狮子采取行动后

随即进入到下一个状态

状态类似于对前面历史行为的总结

接下来

小狮子就会在迷宫中不断试错

最终到达出口

到达出口时也是正奖励之和最大的时候

我再给你们看看它的内部构造

640?wx_fmt=png

恕我直言

这带我出迷宫的知识

我一定要好好学习一下

另外

为了报答它的救命之恩

我准备送它上 C 位

我舍弃了零花钱

炸锅卖铁

换了几十张 30 元优惠券

欢迎大家在评论区领取哦

更多课程详情，请登陆实验楼：

课程链接：https://www.shiyanlou.com/courses/1366

640?wx_fmt=jpeg

实验楼v

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫