强化学习、行为心理学和成瘾机制

本文探讨了强化学习的起源,从行为心理学的角度阐述其理论基础,特别是通过与环境的交互来学习策略以最大化回报。随着神经网络和计算机技术的发展,强化学习在近十年间得到了广泛应用,特别是在策略型AI中。此外,文章还提到了成瘾机制与多巴胺奖励系统,讨论了如何利用这些原理来改善人类行为。
摘要由CSDN通过智能技术生成

关注:灰质,有趣有料的AI技术分享

强化学习已经成为智能技术领域言必称的一种方法了,几乎与深度学习同日而语,无论是在下棋、打牌还是打游戏方面,强化学习以其显著优势已经成为主流技术路线。其实强化学习的起源非常早,大概可以追溯到近百年前,而且是来源于心理学和脑神经科学的启发,作者本来想试着梳理一下发展脉络,没想到知识储备差距比较大,补了不少课,还是不太满意,暂且勉力抛砖引玉,希望对大家有用。

强化学习的发展脉络

强化学习(Reinforcement Learning,简称RL,又译为“增强学习”)这一名词来源于行为心理学,行为心理学认为心理学必须研究人类可观测的行为,而不应研究意识、灵魂等看不见摸不着的那些心理活动。在研究学习活动时,行为心理学尽量不去使用“观念”等术语,而用“刺激”、“反应”等术语来解释学习,比较经典的案例就是巴甫洛夫的狗、斯金纳的鸽子,行为心理学家甚至拿自己的孩子放在研究条件反射的试验箱里,可见科学家们的执着精神。

行为心理学从这种S-R(刺激—反应)的研究出发,只研究那些看得见、听得到和摸得着的东西,拒绝当时无法观测和实证的“意识”、“心理”等心灵主义概念。行为心理学的这种思路向上追溯,可以说是受到机械论唯物主义哲学思想的启发,这种思想认为世界是物质的世界,世界的真正统一性在于它的物质性,行为心理学就比较极端的将心理学的研究范围严格框定在可以通过客观观测的手段重复试验的范畴内开展研究ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值