强化学习和深度学习对比:训练一个机器人走路,我们没法给机器人准备训练用的数据集,因为我也不清楚什么动作比较好,我只能告诉机器人:“无论你做什么动作,能让你越快达到终点的动作越好”。训练时,机器人(智能体 agent)会自行探索各种动作组合(策略 policy)。强化学习算法需要对动作未来的收益(Q值 Q value)进行预测,然后根据预测结果对高收益的动作进行强化,并验证那些有高预期收益的动作组合。从而让机器人(智能体 agent)在人类的引导下自学(越好的强化学习算法越不用人类操心)。
想详细了解强化学习,需要先入门动态规划 (Dynamic Programming) 以及马尔科夫决策过程 (Markov Decision Processes MDPs)。根据预测结果对高收益的动作进行强化是通过贝尔曼公式(Bellman equation) 做到的。
利用深度学习(Deep Learning) 还可以做深度强化学习(Deep Reinforcement Learning)。
深度强化学习是使用了深度学习神经网络的强化学习。上世纪的强化学习算法不用深度神经网络,如:一种叫Q-learning (QL)的强化学习算法使用一个表格(Q-table)去记录每种状态下做出每个动作的分数(Q值,Quality of an action),通过迭代去更新这个表格,让动作的Q值变准确。后来一种发了《Nature》 的方法:Deep Q-learning (Deep Q Network, DQN)用一个深度神经网络取代了表格(Q-table),它结合了强化学习和深度学习。表格能记录的东西是有限的,替换成神经网络后终于突破了状态(state) 数量的限制。后来又有一种深度强化学习算法叫Dee