(文末有福利哦)
我叫实小楼
万万没想到
我被困在迷宫里走不出来了……
看到图中身处迷宫入口
一脸懵逼的小狮子没?
那就是我
今天老板把我扔在了这儿
说是要惩罚我
“走不出迷宫,
实验楼就准备换吉祥物了!”
好吧,我承认
前几天我确实膨胀了:
在实验楼吃喝玩乐
干扰同事工作
没尽好吉祥物的本分
可我还是个孩子啊
太无情了
而且为毛会是走迷宫这种奇葩惩罚
我 tm 可真是太难了
“你可别墨迹了
小脑斧? 梅发怒? 小海疼?
已经来我这报名了
还想不想干了”
迷宫入口挂的喇叭高声嚷着
惹不起惹不起
强装镇定的
我一只爪子迈进了入口
???
这里为啥都一毛一样
一点参照物都没有
???
等等
这个路口我好像来过···
???
完了 已经迷路了 咋整……
还是用绝招吧:
“点兵点将、骑马打仗
点到是谁,跟到我走
要是不走,你是小狗……”
就这样,我点了十轮
可还是在原地打转
—— 绝望了
就在迷宫里躺尸算了
我叫实小楼
万万没想到
我最终还是从迷宫里走了出来
正当我绝望的时候
从天而降了一个小玩意儿
我拾掇起来一看
“迷宫辅助装置”
这玩意儿咋用也不知道
先走一截试试
眼前还是有无数路口
随便选一个吧
刚要走,辅助装置出声了
“这里是一条死路”
就听它的吧
退了回来,换一个路口走
之后我便一直听它的提示
遇到死路时
就及时换一条道
终于……
我走到了出口
也听到辅助器说:
“这是一条正确道路”
看来
吉祥物的名分
算是保住了 ···
回到实验楼我才知道
原来让我走迷宫
不只是为了惩罚我
更是为了测试新产品
没错,就是救我一命的辅助装置就是——
强化学习!
强化学习是机器学习的重要分支
它强调如何基于环境而行动
以取得最大化的预期利益
强化学习的过程一般包含 5 个要素
分别是
智能体(Agent)
环境(Environment)
行为(Action)
状态(State)
奖励(Reward)
以走迷宫为例:
小狮子就是智能体(Agent)
而迷宫就是所处的环境(Environment)
当小狮子尝试走出迷宫时
小狮子在每一个格子
都可以产生 4 种行为
向上向下向左向右
每当做一种行为时
迷宫都会给小狮子一个奖励
奖励可能是正向的
也可能是消极的
那什么是状态呢
每当小狮子采取行动后
随即进入到下一个状态
状态类似于对前面历史行为的总结
接下来
小狮子就会在迷宫中不断试错
最终到达出口
到达出口时也是正奖励之和最大的时候
我再给你们看看它的内部构造
恕我直言
这带我出迷宫的知识
我一定要好好学习一下
另外
为了报答它的救命之恩
我准备送它上 C 位
我舍弃了零花钱
炸锅卖铁
换了几十张 30 元优惠券
欢迎大家在评论区领取哦
更多课程详情,请登陆实验楼:
课程链接:https://www.shiyanlou.com/courses/1366