强化学习是机器想里面非常重要的一个派别。智能体agent会不断执行一些操作,通过结果来学习,在不同的环境中分别应该采取怎样的行动。
一些常见的算法如:
Q学习,深度Q网络 (DQN) ,策略梯度 (Policy Gradients) ,演员-评论家 (Actor-Critic) ,以及近端策略优化 (PPO)等。
奖励假说为根基
问题来了,目标为什么是预期累积奖励最大化?
因为,强化学习原本就是建立在奖励假说的基础之上。想表现好,就要多拿奖励。
每一个时间步 (time step) 的累积奖励都可以表示为:
或者
不过,我们没有办法把奖励直接相加。因为游戏里,越接近游戏开始处的奖励,就越容易获得;而随着游戏的进行,后面的奖励就没有那么容易拿到了。
把智能体想成一只小老鼠,对手是只猫。它的目标就是在被猫吃掉之前,吃到最多的奶酪。
就像图中,离老鼠最近的奶酪很容易吃,而从猫眼皮底下顺奶酪就难了。离猫越近,就越危险。结