【强化学习】强化学习和深度学习的区别

Jason_C_

已于 2023-09-01 17:34:53 修改

阅读量1.6k

点赞数

文章标签：深度学习人工智能

于 2023-09-01 17:32:24 首次发布

本文链接：https://blog.csdn.net/Jason_C_/article/details/132628329

版权

本文探讨了深度学习和强化学习这两种机器学习方法，强调了它们各自的特点，如深度学习的训练集学习和强化学习的动态试错过程，并指出深度学习与强化学习的结合——深度强化学习的应用潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

深度学习和强化学习都属于机器学习，而机器学习又是人工智能的一部分。深度学习和强化学习功能的有趣之处在于它们使计算机能够自己开发规则来解决问题。这种学习能力对于计算机来说并不是什么新鲜事，但直到最近，我们还没有足够的数据和计算能力使其工业化。

什么是深度学习？

深度学习本质上是一个自学习系统。我们可以使用现有数据来训练算法以查找解决相应问题的模式，然后使用这种模式来对新数据进行预测。例如，我们可以训练深度学习算法来识别照片上的猫。具体步骤是：1、让计算机看数以百万计的包含猫或不包含猫的图像。2、让程序通过对图像数据进行分类和聚类（例如，边缘，形状，颜色，形状之间的距离等）来建立模式，足够多的的模式可以得到最终的预测模型。3、让程序通过预测模型来查看新的图像集，通过与预测模型的比对来确定图像中是否有猫。

**深度学习算法通过模拟我们大脑神经元网络的人工神经网络来实现类似人类大脑的功能。**算法在运行中会执行各种循环，通过缩小模式与实际的差距来改进每个循环的预测，最终建立一个最优预测模型。

苹果的Face ID（人脸识别）就是一个很好的关于深度学习的工业应用案例。Face ID可以通过扫描脸部来训练算法。每次使用Face ID登录时，TrueDepth摄像头会捕获数千个数据点，这些数据点被用于创建用户脸部的深度图，而手机的内置神经引擎将执行预测模型以判断您是否是您。

什么是强化学习？

强化学习也是一种自学习系统，但它主要是通过反复试验来学习的。通过有限次地执行行动以得到最大化奖励从而确定最佳答案，换句话说，**它是通过实践来学习，从实践中找到最佳结果。**这就好比我们小时候学骑自行车。刚开始学的时候我们经常会摔倒，但随着摔得次数多了，我们慢慢就掌握窍门了。这个学习的过程就是强化学习。当计算机使用强化学习时，它们会尝试不同的行为，从反馈中学习该行为是否能够得到更好的结果，然后将能得到好结果的行为记住，规范点说就是计算机在多次迭代中自主地重新修正算法，直到能做出正确的判断为止。

使用强化学习的一个很好的例子是让机器人学习如何走路。机器人首先向前迈出一大步然后跌倒。这一大步和摔倒是强化学习系统关注的响应点。由于反馈是负面的，所以继续调整，系统会根据多个负反馈的比对最终确定机器人应该把步子迈的小一点，不停地小，直到机器人走路不会摔倒为止。

近几年，我看到的最强大的强化学习实验之一就是谷歌的Deep Mind。谷歌的研究人员把这个工具应用到了经典的电脑游戏Atari Breakout（一个最经典的打砖块游戏）上。他们把最佳目标（结果）设定成了最多的得分，Deep Mind需要做的就是不断地通过移动底下的挡板来击打小球以破环屏幕顶部的砖块。这个实验的视频大家可以去百度一下，在实验的开始，Deep Mind犯了很多低级错误，但很快，它就可以击败这个世界上最好的击砖块选手了。到现在，Deep Mind已经会玩近60种游戏了。