《强化学习》学习笔记1——基本概念

但为月华明

已于 2022-09-04 16:33:42 修改

阅读量319

点赞数 1

文章标签：学习人工智能

于 2022-08-28 17:28:53 首次发布

本文链接：https://blog.csdn.net/qq_39826457/article/details/126569761

版权

人工智能有三大流派，分别是功能主义、行为主义、和结构主义。其中功能主义着重于通过算法或程序去模拟人思维的过程，如专家系统；而结构主义则是如今大火的人工神经网络，通过构建和人大脑相似的结构来模拟人或动物的部分智能；而行为主义最初是一个心理学流派，他们认为人的心理活动都是外界的一些刺激导致人或动物身体内部的一些物理变化和化学变化，通过研究人或动物的受到环境刺激而产生的行为变化规律来研究心理学。一个很著名也很成功的实验就是巴甫洛夫的狗。给狗投递食物，狗会分泌唾液，这是先天的非条件作用；给狗投递食物的同时响起铃声，次数多了，不投递食物，只响起铃声，狗也会分泌唾液，这时狗已经通过后天的训练建立了条件反射，铃声和分泌唾液建立了联系。所以行为主义认为，动物的学习活动都可以总结为外界刺激和行为建立联系的过程，只不过不同的行为复杂程度不同。同时动物在做出行为后获得的奖惩会强化这一联系。这就是强化学习中“强化”两个字的由来。

行为主义的想法在当时确实可以解释很多现象，但是在认知心理学发展的今天，完全套用在人的认知活动上其实是不合理的。有一个笑话：

有一个很有趣的故事能够戏谑地说明物种之间存在本质意义上的差异。这个故事就来自于开头我们提到的巴普洛夫的经历。话说巴普洛夫研究狗分泌唾液的时候，他成功地将「铃声」与「狗分泌唾液」之间建立了条件反射。但是，当他把实验对象换成他的弟弟尼古拉时——巴甫洛夫像往常一样摇动铃铛，但却没有拿出面包片——尼古拉的反应并不是止不住地流口水，而是抡圆了胳膊，一记左勾拳将巴甫洛夫打进了医院。

——摘录自11.行为主义心理学评述「总结篇」 - 知乎

强化学习的一个很重要的应用就是 AlphaGo了，当年2016年AlphaGo横空出世的时候，我就非常感兴趣和激动。后面看到AlphaGo升级版master和人类围棋顶尖高手的对决，确实达到了state-of-art的状态，人类已经忘尘莫及了。一直想去了解AlphaGo的底层原理，但是拖到现在才下定决心去系统学习一下。学习过程中会将学习笔记记录下来，一为整理一遍加深理解，二为后续方便翻看。