机器学习、深度学习和强化学习

  • 最近在读论文的中遇到soft Actor-Critic method时,对此感到困惑,首先去知乎中搜索了有关这个术语的定义和解释,soft Actor-Critic method是属于强化学习内非常重要的内容,通俗来讲soft Actor-Critic method是一种决策策略类的算法。在去学习soft Actor-Critic method之前思考了一个问题。

        什么是强化学习?与我们了解的机器学习和深度学习又有什么不同?在这之前我对于这三者之间的关系还是懵懵懂懂。本文将对这三者做出一定的介绍。

人工智能

        人工智能这个耳熟能详的词语想必所有人都知道,从宏观来说,现在已经未来都属于人工范畴的领域,同样机器学习、深度学习和强化学习其也是属于人工智能的领域之中,这不难理解,都是为了通过机器/计算机得到解决现实问题的答案。

        因此,人工智能就是让机器能够像人类一样思考,让机器具备观察和感知的能力,做到一定程度的理解和推理,让机器获得一定的自适应能力独立的去解决问题。这是当前人工智能的作用所在,机器学习、深度学习和强化学习无非就是人工智能中的一个分支。但仅仅在这一程度上的理解是远远不够的,接下来本文继续探讨机器学习、深度学习和强化学习的定义、详细区别和应用。

一、机器学习

        首先明白机器 学习到底是什么?按照百度百科定义:

        机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度、理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

        (1)机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

        (2)机器学习是对能通过经验自动改进的计算机算法的研究。

        (3)机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

事实证明这些文字上定义的条条框框显得太死板了,对于任何人来说,从定义上去理解一门技术无疑是失败的,这和我们传统意义上的数学学习有着本质的区别。

        但我们可以从定义中提取几个关键的信息点:计算机、经验和改进

 理解机器学习首先就应该为什么会有机器学习?

        从上世纪60、70、80、90年代,科学家门都在致力于研究各种各样的理论、知识和成果来解决现实中的问题,往往采用的最多的方式都是归纳、总结和推理,这种方式是需要人脑不断地学习广泛的知识来完成的,过程是低效缓慢。最后得到的结果一定是得到了什么样的成果、理论解决了什么样的问题,以便于人们再次遇到这类问题时有了一个明确的解决方案。随着计算机的猛烈发展,这种低效的方式需要进化和改善,因此能否把这种归纳、整理和推理的方式交给计算机完成,于是就有了机器学习的诞生,其实就是让机器来模拟人脑来解决问题。

        于是机器学习的定义变成了 :从经验中自动改进系统性能程序。经验往往是以数据表现的方式呈现,因此在实践上机器学习为数据分析提供了主要工具。换句话说,今天对数据进行较为深入的分析,总结出模型的工作都属于机器学习的范畴。

机器学习的详细内容

        机器学习从数据中总结模型,而数据表示的经验可以包含不同的信息形态,其中的一个关键的信息,是关于模型表现的反馈信息。有的数据中包含了模型应该输出的值,有的数据则完全没有这一类信息,还有的数据中包含的是对模型表现的打分。不同的反馈信息导致我们需要用不同的技术进行处理,因此按照反馈信息的不同,机器学习经典划分为三大类:

  • 监督学习

        处理包含有模型正确输出值的数据,即有标记数据。例如图像识别中,每一张图像都有相应分类标记。

  • 无监督学习

        数据中完全没有关于模型输出好坏的客观评估。这时通常会人为的设置某种学习目标,以开展学习,例如把256维人脸照片压缩到4维,此时并没有任何关于这4维应该如何的信息,一种做法是使得这4维能够还原出256维的人脸,这就是一种人为设定的目标。这种还原自身信息的做法也叫自监督学习,虽然名称中有“监督”,其实是一类借用监督技术的无监督学习。通俗的讲就是输入模型中的数据是没有固定的分类标签,得到的最终结果是根据数据的相似程度和相关性进行分类,但分类的规则是隐藏的不为人知的。

  • 强化学习

        处理的数据仅包含有模型打分值,而不知道模型到底应该输出什么,因此只能靠算法去不断的探索,寻找打分值最高的模型输出。例如围棋游戏,缺乏每一步走棋的最佳指导,只能通过最终的输赢作为打分,自主探索寻找最佳模型。

        在这一分类过程中是按照机器学习的任务维度进行分类的,随着科学技术的不断发展,越来越多的交叉领域研究工作的开展,出现了更多的衍生方向,这一类的衍生方向不再局限于具体是属于哪个类别,而是上述三大类别的互相借鉴交叉如半监督学习、模仿学习等等。

机器学习的模型和算法

  • 监督学习

        主要用于回归和分类两类任务。回归任务是指预测一个连续值的输出,即通过输入变量预测一个实数或连续变量。回归模型的目标是学习训练数据中的模式和趋势,以便能够对新的输入数据进行精确的预测。分类任务是指将输入数据分为不同的类别或标签。分类模型根据已有的训练数据学习特征的关系,并将新的输入数据分配到预定义的类别中。

        回归算法回归算法有线性回归、回归树、K邻近、Adaboost、神经网络等。分类算法包括朴素贝叶斯、决策树、SVM、逻辑回归、K邻近、Adaboost、神经网络等。

  • 无监督学习

        主要用于关联分析、聚类和降维。 常见的无监督学习算法有稀疏自编码(Sparse Auto-Encoder)、主成分分析(Principal Component Analysis, PCA)、K-Means算法(K均值算法)、DBSCAN算法(Density-Based Spatial Clustering of Applications with Noise)、最大期望算法(Expectation-Maximization algorithm, EM)等。

机器学习总结

        机器学习是一个非常宽泛的范围,其中包含的算法、模型和分支繁多庞大,在学习过程中更加注重的是对实际问题的解决方式,以解决问题的形式去对机器学习进行思考。但是传统的机器学习往往处理的数据规模太小,对于一些复杂的现实意义问题在解决过程中太过吃力和无法实现,随着技术的发展出现了深度学习技术是一个复杂的机器学习算法。因此深度学习的本质还是解决机器学习上的问题,只不过解决问题的方式复杂了,所有深度学习是机器学习的一个分支。

二、深度学习

        从上一节的总结得出一个结论:深度学习是机器学习的延续,因此二者的目的是相同的,区别就在于问题的规模和解决问题的方式存在差异。深度学习倒不如说是更深层次的神经网络

        区别于传统的浅层学习,深度学习的不同在于:

1、强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点。

2、明确了特征学习的重要性。也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更容易。

典型的深度学习模型有卷积神经网络( convolutional neural network)、DBN和堆栈自编码网络Q(stacked auto-encoder network)模型等。深度学习目前在搜索技术、数据挖掘、机器学习、机器翻译、计算机视觉、语音识别、自然语言处理、多媒体学习、语音、推荐和个性化技术、以及其他相关领域都取得了很多成果。

        深度学习通过学习一种深层非线性网络结构,用一种简单的网络结构实现逼近实际复杂函数的近似函数,用于从大量无标注样本集中学习数据集本质特征的强大能力,更容易获得可更好地表示数据的特征。

深度学习的弊端

本文不再探讨深度学习的优点,只关注其局限的地方,以便于未来在使用中能够起到启发作用。

1、硬件需求高,计算量大,便携性差,模型设计复杂

        深度学习依赖非常高的算力,因此导致在构建一个大型深度学习模型需要耗费大量的人力物力,这种缺陷也让其便捷性大大下降。以ChatGPT为例,其由GPT-3.5模型提供支持,历经GPT-1、GPT-2、GPT-3三次迭代,参数量从1.17亿增至1750亿,预训练数据量从5GB增至45TB(数据相当于整个维基百科英文版的160倍),其中,GPT-3训练成本估算至少超过460万美元。

2、只能根据寄有的数据来学习,不会判断数据正确性

        深度学习可以在不理解数据的情况下模仿数据中的内容:它不会否定任何数据,不会发现社会上的偏见,而只是“学习数据”。深度学习只相信它在数据中频繁看到的事物、底层模式和趋势,因此它会放大人类社会的偏见和问题。如果数据显示被逮捕的黑人比白人多,那么一旦有人犯罪,深度学习将首先怀疑黑人。数据显示公司董事会董事中男性比例高于女性,深度学习将在招聘中更倾向于男性应聘者。

3、无法修正学习结果,除非重新训练
        无法通过在训练之后添加补丁,来修复一个带有偏见、种族和性别歧视的深度学习模型。深度学习是一个神经网络,与其他人工智能方法不同,无法通过局部补救来修改某个答案,而是必须使用不同的、完全平衡以及公正的、稀有的真实世界数据对该网络进行重新训练。
4、无法解释做出的决策

深度学习给出的是非自然(合法)语言解释的结果。深度学习的代码容易获得,却很难为人类所理解接受,因为即使最好的数学家或其他算法也无法搞明白它。

三、强化学习

        强化学习也是机器学习中的一个分支领域,它又与深度学习有所区别。强化学习不仅能利用现有数据,还可以通过对环境的探索获得新数据,并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索,而探索是为了获取数据进行更好的学习。也就是说强化学习会根据当前环境的现状做出反应和决策,当智能体在环境中得到当前时刻的状态后,其会基于此状态输出一个动作,这个动作会在环境中被执行并输出下一个状态和当前的这个动作得到的奖励。智能体在环境里存在的目标是最大化期望累积奖励。

强化学习和深度学习的主要区别

1、相比深度学习,强化学习的训练不需要标签,它通过环境给出的奖惩来学习。

2、深度学习的学习过程是静态的,强化学习则是动态的,动态体现在是否会与环境进行交互。也就是说,深度学习是给什么样本就学什么,而强化学习是要和环境进行交互,再通过环境给出的奖惩来学习。

3、深度学习解决的更多是感知问题强化学习解决的主要是决策问题。因此有监督学习更像是五官,而强化学习更像大脑的说法。

强化学习智能体的组成

(1)策略函数:智能体会用策略函数来选取它下一步的动作,策略包括随机性策略和确定性策略。

(2)价值函数:用价值函数来对当前状态进行评估,即进入现在的状态可以对后面的奖励带来多大的影响。价值函数的值越大,说明进入该状态越有利。

(3)模型:表示智能体对当前环境状态的理解,它决定系统是如何运行的。

强化学习、监督学习和无监督学习三者区别

        首先强化学习无监督学习是不需要有标签样本的,而监督学习需要许多有标签样本来进行模型的构建和训练。其次对于强化学习与无监督学习,无监督学习直接基于给定的数据进行建模,寻找数据或特征中隐藏的结构,一般对应聚类问题;强化学习需要通过延迟奖励学习策略来得到模型与目标的距离,这个距离可以通过奖励函数进行定量判断,这里可以将奖励函数视为正确目标的一个稀疏、延迟形式。另外,强化学习处理的都是序列数据,样本之间通常具有强相关性,但其很难像监督学习的样本一样满足独立同分布条件。

四、机器学习、深度学习、强化学习小结

        在上面三节的讲解中,分别从各自的概念、内容、区别和联系进行分析,展示了各自的作用和应用。机器学习是一个庞大的知识网络,其内含了众多的细小方向和算法模型,再后续的过程中要始终把握住其与其他分支间的关联关系,后续的学习是对机器学习的延申和扩展,在学习任何新的知识也应该从其原理、内容和依赖的现实问题出发,以问题驱动知识的获取,用实践检验内容的有效性。

        

        

        

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值