谈Reinforcement Learning与能够学习进化的程序

最新推荐文章于 2022-03-27 21:15:27 发布

ppn029012

最新推荐文章于 2022-03-27 21:15:27 发布

阅读量7.8k

点赞数

文章标签： machine learning

本文链接：https://blog.csdn.net/ppn029012/article/details/8666328

版权

1.婴儿怎么学习?

举个例子，回想一下当您刚出生时，您是怎么学习抓住一个物体的? 很多人都觉得，我们生来就会啊，这还用学? 但是科学证明，婴儿学会抓住一个物体的技能需要大概三个月来完成。而且，这个过程是由婴儿独立学习完成的，可以完全不需要人的指导。这个过程是怎么完成的呢?

首先，婴儿必须能看到物体，然后控制手臂上的肌肉，使手不断地靠近目标。这是一个很高难度的过程，首先，假设人的手臂上有20块肌肉, 每块肌肉10种不同程度的伸缩度，而手靠近目标需要花费大概5秒的时间，那么每一秒，我们将面临10^20种选择，那么假设花5秒去靠近物体，那么总共会有10^20^5种肌肉控制方式的可能，假如让你每秒试10000次(夸张...), 那么你还是得花上几十万年才有可能碰到你亲爱的小狗什么之类的...

一个简单的抓取物品的手臂控制就几乎不可能靠简单地尝试完成，那么其他的活动您也别参加了，好好在家躺着就好了。

以上讲的尝试的方法是可怕的。一个人只靠盲目地尝试，甚至不能在地球毁灭之前学会控制自己的一只手臂。所以我们肯定遗漏了些什么东西，这些东西能够帮助我们更快更好地去学习，不管是抓取物品还是呀呀学语。

现在想一想，我们人在这个学习中能获得什么信息? 对了，我们自己能看到自己手的位置, 这个信息正是帮助我们学习的关键。每次我们尝试不同的肌肉强度组合，我们都能看到, 手位置变化的结果。我们能够通过手位置的变化，获得有用的调整肌肉强度的信息，从而使得整个使用肌肉的学习具有强烈的导向性。而我们会记住这些肌肉使用的规律，并且在日后的学习中，不断地改进规律，最后使我们使用手臂简单而轻松。

除了婴儿学抓东东，当然还有一些更为"计算机科学家"喜闻乐见的学习例子，比如学下象棋。而我们在熟悉了象棋规则之后，就能通过自己与相同或者不同的人对弈，就能不断提高自己的棋艺，甚至成为一代高手。但是仔细地看学下棋这个过程，每一步棋的时候，都会有大概50种选择，那么50步的棋就会有50^50种策略的选择。又是一个天文数字，我们怎么能够就在几十或者几百次尝试之后就能渐渐地找到一些很好的策略，来帮助我们获得胜利呢?

在我们尝试地解决以上问题之前，让我们弄清楚我们最后想要的是什么东西----是一个策略(Policy). 这个策略会告诉我们，在某一步(或某一个状态)该进行什么动作。策略会将 (状态域) ---影射到 --> (动作域). 比如在下象棋时，别人中炮将军时，你可以选择飞象，或者可以把将移开，... and so on. 又如婴儿学动手，当手在某一个位置时，策略会告诉你，下一步应该怎么动哪几块肌肉了，于是您在策略的倾情指导下，就能够不断的靠近目标，完成所想之事。

最低0.47元/天解锁文章

ppn029012

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
谈Reinforcement Learning与能够学习进化的程序

1.婴儿怎么学习?举个例子，回想一下当您刚出生时，您是怎么学习抓住一个物体的? 很多人都觉得，我们生来就会啊，这还用学? 但是科学证明，婴儿学会抓住一个物体的技能需要大概三个月来完成。而且，这个过程是由婴儿独立学习完成的，可以完全不需要人的指导。这个过程是怎么完成的呢? 首先，婴儿必须能看到物体，然后控制手臂上的肌肉，使手不断地靠近目标。这是一个很高难度的过程，首先，假设人的手臂上有20
复制链接

扫一扫