谈Reinforcement Learning与能够学习进化的程序

1.婴儿怎么学习?

举个例子,回想一下当您刚出生时,您是怎么学习抓住一个物体的? 很多人都觉得,我们生来就会啊, 这还用学? 但是科学证明,婴儿学会抓住一个物体的技能需要大概三个月来完成。而且,这个过程是由婴儿独立学习完成的,可以完全不需要人的指导。这个过程是怎么完成的呢? 

首先,婴儿必须能看到物体,然后控制手臂上的肌肉,使手不断地靠近目标。这是一个很高难度的过程,首先,假设人的手臂上有20块肌肉, 每块肌肉10种不同程度的伸缩度,而手靠近目标需要花费大概5秒的时间,那么每一秒,我们将面临10^20种选择,那么假设花5秒去靠近物体,那么总共会有10^20^5种肌肉控制方式的可能,假如让你每秒试10000次(夸张...), 那么你还是得花上几十万年才有可能碰到你亲爱的小狗什么之类的...

一个简单的抓取物品的手臂控制就几乎不可能靠简单地尝试完成,那么其他的活动您也别参加了,好好在家躺着就好了。

以上讲的尝试的方法是可怕的。 一个人只靠盲目地尝试,甚至不能在地球毁灭之前学会控制自己的一只手臂。 所以我们肯定遗漏了些什么东西,这些东西能够帮助我们更快更好地去学习, 不管是抓取物品还是呀呀学语。

现在想一想,我们人在这个学习中能获得什么信息? 对了,我们自己能看到自己手的位置, 这个信息正是帮助我们学习的关键。 每次我们尝试不同的肌肉强度组合,我们都能看到, 手位置变化的结果。我们能够通过手位置的变化,获得有用的调整肌肉强度的信息, 从而使得整个使用肌肉的学习具有强烈的导向性。而我们会记住这些肌肉使用的规律,并且在日后的学习中,不断地改进规律,最后使我们使用手臂简单而轻松。

除了婴儿学抓东东, 当然还有一些更为"计算机科学家"喜闻乐见的学习例子,比如学下象棋。而我们在熟悉了象棋规则之后,就能通过自己与相同或者不同的人对弈,就能不断提高自己的棋艺,甚至成为一代高手。但是仔细地看学下棋这个过程, 每一步棋的时候,都会有大概50种选择,那么50步的棋就会有50^50种策略的选择。又是一个天文数字,我们怎么能够就在几十或者几百次尝试之后就能渐渐地找到一些很好的策略,来帮助我们获得胜利呢?


在我们尝试地解决以上问题之前,让我们弄清楚我们最后想要的是什么东西----是一个策略(Policy). 这个策略会告诉我们,在某一步(或某一个状态)该进行什么动作。 策略会将 (状态域) ---影射到 --> (动作域). 比如在下象棋时,别人中炮将军时,你可以选择飞象,或者可以把将移开,... and so on. 又如婴儿学动手, 当手在某一个位置时,策略会告诉你,下一步应该怎么动哪几块肌肉了,于是您在策略的倾情指导下,就能够不断的靠近目标,完成所想之事。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值