《强化学习》学习笔记1——基本概念

        人工智能有三大流派,分别是功能主义、行为主义、和结构主义。其中功能主义着重于通过算法或程序去模拟人思维的过程,如专家系统;而结构主义则是如今大火的人工神经网络,通过构建和人大脑相似的结构来模拟人或动物的部分智能;而行为主义最初是一个心理学流派,他们认为人的心理活动都是外界的一些刺激导致人或动物身体内部的一些物理变化和化学变化,通过研究人或动物的受到环境刺激而产生的行为变化规律来研究心理学。一个很著名也很成功的实验就是巴甫洛夫的狗。给狗投递食物,狗会分泌唾液,这是先天的非条件作用;给狗投递食物的同时响起铃声,次数多了,不投递食物,只响起铃声,狗也会分泌唾液,这时狗已经通过后天的训练建立了条件反射,铃声和分泌唾液建立了联系。所以行为主义认为,动物的学习活动都可以总结为外界刺激和行为建立联系的过程,只不过不同的行为复杂程度不同。同时动物在做出行为后获得的奖惩会强化这一联系。这就是强化学习中“强化”两个字的由来。

 

        行为主义的想法在当时确实可以解释很多现象,但是在认知心理学发展的今天,完全套用在人的认知活动上其实是不合理的。有一个笑话:

有一个很有趣的故事能够戏谑地说明物种之间存在本质意义上的差异。这个故事就来自于开头我们提到的巴普洛夫的经历。话说巴普洛夫研究狗分泌唾液的时候,他成功地将「铃声」与「狗分泌唾液」之间建立了条件反射。但是,当他把实验对象换成他的弟弟尼古拉时——巴甫洛夫像往常一样摇动铃铛,但却没有拿出面包片——尼古拉的反应并不是止不住地流口水,而是抡圆了胳膊,一记左勾拳将巴甫洛夫打进了医院。

——摘录自11.行为主义心理学评述「总结篇」 - 知乎

        强化学习的一个很重要的应用就是 AlphaGo了,当年2016年AlphaGo横空出世的时候,我就非常感兴趣和激动。后面看到AlphaGo升级版master和人类围棋顶尖高手的对决,确实达到了state-of-art的状态,人类已经忘尘莫及了。一直想去了解AlphaGo的底层原理,但是拖到现在才下定决心去系统学习一下。学习过程中会将学习笔记记录下来,一为整理一遍加深理解,二为后续方便翻看。

强化学习的一些基本概念

state: 状态。当前环境的可观测的状态。

agent: 智能体。

action: 智能体应对环境刺激所作出的行为。

policy: 策略。智能当前环境的刺激做出行为的策略,可以理解为当前环境的状态和智能体下一步行为之间的映射关系。一般习惯称之为\pi函数:

        \pi(s,a) ->[0, 1]

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值