关注:灰质,有趣有料的AI技术分享
强化学习已经成为智能技术领域言必称的一种方法了,几乎与深度学习同日而语,无论是在下棋、打牌还是打游戏方面,强化学习以其显著优势已经成为主流技术路线。其实强化学习的起源非常早,大概可以追溯到近百年前,而且是来源于心理学和脑神经科学的启发,作者本来想试着梳理一下发展脉络,没想到知识储备差距比较大,补了不少课,还是不太满意,暂且勉力抛砖引玉,希望对大家有用。
强化学习的发展脉络
强化学习(Reinforcement Learning,简称RL,又译为“增强学习”)这一名词来源于行为心理学,行为心理学认为心理学必须研究人类可观测的行为,而不应研究意识、灵魂等看不见摸不着的那些心理活动。在研究学习活动时,行为心理学尽量不去使用“观念”等术语,而用“刺激”、“反应”等术语来解释学习,比较经典的案例就是巴甫洛夫的狗、斯金纳的鸽子,行为心理学家甚至拿自己的孩子放在研究条件反射的试验箱里,可见科学家们的执着精神。
行为心理学从这种S-R(刺激—反应)的研究出发,只研究那些看得见、听得到和摸得着的东西,拒绝当时无法观测和实证的“意识”、“心理”等心灵主义概念。行为心理学的这种思路向上追溯,可以说是受到机械论唯物主义哲学思想的启发,这种思想认为世界是物质的世界,世界的真正统一性在于它的物质性,行为心理学就比较极端的将心理学的研究范围严格框定在可以通过客观观测的手段重复试验的范畴内开展研究ÿ