通俗讲解强化学习！

最新推荐文章于 2025-04-30 16:32:41 发布

Datawhale

最新推荐文章于 2025-04-30 16:32:41 发布

阅读量3k

点赞数 1

文章标签：游戏算法大数据强化学习机器学习

本文链接：https://blog.csdn.net/Datawhale/article/details/121759608

版权

Datawhale干货

作者：知乎King James，伦敦国王大学

知乎｜ https://www.zhihu.com/people/xu-xiu-jian-33

前言：强化学习这个概念是2017年Alpha Go战胜了当时世界排名第一的柯洁而被大众知道，后面随着强化学习在各大游戏比如王者荣耀中被应用，而被越来越多人熟知。王者荣耀AI团队，甚至在顶级期刊AAAI上发表过强化学习在王者荣耀中应用的论文。那么强化学习到底是什么，如何应用？下面和大家分享我对强化学习的整个过程，以及强化学习目前在工业界是如何应用的，欢迎沟通交流。

1 简介强化学习

强化学习是机器学习的一个分支。

1.1 什么是强化学习

强化学习是一种机器学习的学习方式（四种主要的机器学习方式解释见上图）。

上图没有提到深度学习，是因为从学习方式层面上来说，深度学习属于上述四种方式的子集。而强化学习是独立存在的，所以上图单独列出强化学习，而没有列出深度学习。

强化学习和其他三种学习方式主要不同点在于：强化学习训练时，需要环境给予反馈，以及对应具体的反馈值。它不是一个分类的任务，不是金融反欺诈场景中如何分辨欺诈客户和正常客户。强化学习主要是指导训练对象每一步如何决策，采用什么样的行动可以完成特定的目的或者使收益最大化。

比如AlphaGo下围棋，AlphaGo就是强化学习的训练对象,AlphaGo走的每一步不存在对错之分，但是存在“好坏”之分。当前这个棋面下，下的“好”，这是一步好棋。下的“坏”，这是一步臭棋。强化学习的训练基础在于AlphaGo的每一步行动环境都能给予明确的反馈，是“好”是“坏”？“好”“坏”具体是多少，可以量化。强化学习在AlphaGo这个场景中最终训练目的就是让棋子占领棋面上更多的区域，赢得最后的胜利。

打一个不是很恰当的比喻，有点像马戏团训猴一样。

驯兽师敲锣，训练猴站立敬礼，猴是我们的训练对象。如果猴完成了站立敬礼的动作，就会获得一定的食物奖励，如果没有完成或者完成的不对，就没有食物奖励甚至是鞭子抽打。时间久了，每当驯兽师敲锣，猴子自然而然地就知道要站立敬礼，因为这个动作是当前环境下获得收益最大的动作，其他动作就不会有食物，甚至还要被鞭子抽打。（https://bbs.hupu.com/36347293.html 这里有一篇耍猴的报道，有强化学习的味道）

强化学习的灵感来源于心理学里的行为主义理论：