浅谈机器学习之深度学习

最新推荐文章于 2025-02-06 09:53:47 发布

晨晨要睡醒

最新推荐文章于 2025-02-06 09:53:47 发布

阅读量4.6k

点赞数 2

文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/qq_52160102/article/details/116278812

版权

浅谈机器学习之深度学习

从人工智能到机器学习再到深度学习
人工智能是个很大的知识集合体，但目前有个和它关系最大的学科———机器学习
机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能
简单理解就是机器学习是一门搞算法和模型的学科，而这些算法和模型可以把机器变聪明
机器学习有许多算法和模型，而其中有一类算法特牛，这个就是深度学习。

一.机器学习简介
机器学习是一种多领域交叉学科，专门研究计算机如何模拟或实现人类学习行为，以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心是使计算机具有智能的根本途径。

二.深度学习简介
深度学习是一种实现机器学习的技术，其本身并不是一种独立的学习方法，还会用到监督和无监督的方法来训练深度学习网络，由于近几年该领域发展迅猛，一些特有的学习手段相继被提出，因此很多人将其单独看做一种学习方法。深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。 (以上均来自百度百科)

三.深度学习的应用发展历程
最初的深度学习是利用深度学习网络来解决中表达的一种学习过程。深度神经网络本身并不是一个全新的概念，可大致理解为一个包含多个隐含层的神经网络结构，为提高深层网络训练效果，人们对神经元的连接方法及激活函数做出了相应的调整，虽然前些年也有过但是由于数据量不足及那能力落后，所以最终效果也不尽人意。
深度学习摧枯拉朽般的完成了各种任务，而几乎所有的机器辅助功能变为可能，无人驾驶汽车，医疗性预防保健，甚至更好的电影推荐都近在眼前或即将实现。

四.深度学习的问题
深度学习可以说是作为目前最热门的机器学习方法，但其中存在着以下几个问题。
一、深度学习模型需要大量的数据才能展现出神奇的效果。在现实生活中不可避免的会遇到小杨板问题这是深度学习就无法插手。
二、有些领域采用简单的传统机器学习往往就可以解决没有必要采用复杂的深度学习方法。
三、深度学习的方法来源于热闹的启发但又不完全等同于人脑，如果对某一件事情稍微改变一些局部变量他的判断就可能会因此而改变，但是人脑几乎不会这样，也就是说人类的学习过程不需要大量的训练数据，而现在的学习方法显然不是对人脑的模拟。

五.深度学习核心计算模型：人工神经智能

六.深度学习的实质：
实质是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。
区别于传统的浅层学习，深度学习的不同在于：1.强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2.明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。

七.机器学习和深度学习的对比

1.数据依赖性
深度学习与传统的机器学习最主要的区别在于随着数据规模的增加其性能也不断增长。当数据很少时，深度学习算法的性能并不好。这是因为深度学习算法需要大量的数据来完美地理解它。另一方面，在这种情况下，传统的机器学习算法使用制定的规则，性能会比较好。下图总结了这一事实。

2.硬件依赖

深度学习算法需要进行大量的矩阵运算，GPU 主要用来高效优化矩阵运算，所以 GPU 是深度学习正常工作的必须硬件。与传统机器学习算法相比，深度学习更依赖安装 GPU 的高端机器。

人工神经网络是由大量节点相互连接构成的具有信息响应的网状拓扑结构，可用于模拟人脑神经元的活动过程，它反映了人脑功能的基本特性，包括诸如信息加工、处理和储存等过程。到目前为止，已经发现的人工神经网络特征主要有非线性、并行处理和容错性，并具有联想、自学习、自组织和自适应的能力。

学习的四个象限

八.人工神经网络特点

1.非线性

人工神经网络可以很好地处理非线性问题，是因为其内部的组成单元——神经元可以处于激活或抑制两种不同的状态，这种行为在数学上理解就是具有非线性。同时，人工神经网络是大量神经元的集体行为，并不是单个神经元行为的简单的相加，所以会表现出复杂非线性动态系统的特性。在实际问题处理中，输人与输出之间会存在复杂的非线性关系，通过设计神经网络对系统输人输出样本进行训练学习，可以任意精度地去拟合逼近复杂的非线性函数，解决环境信息十分复杂、知识背景不清楚和推理规则不明确的一些问题。

2.并行处理

人工神经网络的结构采用大量的处理单元并联组合而成，且处理顺序也是并行的方式，即在它所处同层的处理单元都是同时操作的。它的信息存储的方式采用的是分布式，将存储信息分散到所有的连接权当中共同存储，而大量的神经元并行处理就会有较快的处理速度。

3.容错性和联想能力

在生物系统中信息不是存储在某个位置，而是按内容而分布在整个网络上的。神经网络个神经元不是只存储一个外部信息，而是存储多种信息的部分内容。因为神经网络具有这种分布储存形式，所以如果网络中部分的神经元遭到损坏，那么并不会对整体造成较大的影响。再者，将处理的数据信息储存在神经元之间的权重中，这就类似于大脑对信息的储存是在突触之间的活动当中。这种分布式存储算法是将运算与存储合为一体的，当信息不完整的时候，就可通过联想记忆对其进行恢复，所以说人工神经网络具有强大的容错性和联想记忆能力，可以在不完整的信息和干扰中进行特征提取并复原成完整的信息。

4.自学习、自组织和自适应能力

人工神经网络具有很强的自学习能力，可以在不断的训练中来获得合适的权值和结构。人工神经网络在处理信息的同时改变权重大小，会得到不同的结果，并且可以通过一定的训练得出期望的输出值。人工神经网络系统可以在外部环境刺激下按一定规则调整神经元之间的突触连接强度，逐步构建神经网络，这个过程就被称为网络的自组织。而自适应是指人工神经网络具有可以通过改变自身的结构与条件来适应不同环境的能力。

以上几点就是人工神经网络的主要特点。

九.通用近似定理

通用近似定理告诉我们，不管函数f ( x ) 在形式上有多复杂，我们总能确保找到一个神经网络，对任何可能的输入x，以任意高的精度近似输出f ( x ) （即使函数有多个输入和输出换句话说，神经网络在理论上可近似解决任何问题！有关神网络可以计算任何函数的可视化证明，感兴趣的读者可以参阅迈克尔·尼尔（Michael Nielsen）的博客文。

使用这里有两个注意点：
定理说的是，可以设计神经网络尽可能好地去“近似”某个特定函数，而不是说“准确”计算这个函数。只能通过增加隐含层神元的个数来提升近似的精度。
被近似的函数，必须连续函数如果函数是非连续的，也就是说有极陡跳跃的函数，那神经网络就“爱莫能助”了。
即使函数是连续的，有关神经网络能不能解决所有问题，也是有争议的原因很简单，就如同那句玩笑话“理想很丰满，现实很骨感，通用近似定理在理论上是回事，而在实际操作中又是另外回事。

十.机器学习的三个层次
大致可分为三类：

（1）监督学习（Supervised Learning）:
监督学习基本上就是“分类（classification）”的代名词。它从有标签的训练数据中学习，然后给定某个新数据，预测它的标签（given data, predict labels）。
简单来说，监督学习的工作，就是通过有标签的数据训练，获得一个模型，然后通过构建的模型，给新数据添加上特定的标签。
整个机器学习的目标，都是使学习得到的模型，能很好地适用于“新样本”，而不是仅仅在训练样本上工作得很好。通过训练得到的模型，适用于新样本的能力，称之为“泛化（generalization）能力”。

（2）非监督学习（Unsupervised Learning）：
与监督学习相反的是，非监督学习所处的学习环境，都是非标签的数据。非监督学习，本质上，就是“聚类（cluster）”的近义词。
简单来说，给定数据，从数据中学，能学到什么，就看数据本身具备什么特性（given data, learn about that data）。我们常说的“物以类聚，人以群分”说得就是“非监督学习”。这里的“类”也好，“群”也罢，事先我们是不知道的。一旦我们归纳出“类”或“群”的特征，如果再要来一个新数据，我们就根据它距离哪个“类”或“群”较近，就“预测”它属于哪个“类”或“群”，从而完成新数据的“分类”或“分群”功能。

（3）半监督学习（Semi-supervised Learning）：
这类学习方式，既用到了标签数据，又用到了非标签数据。
给定一个来自某未知分布的有标记示例集L={(x1, y1), (x2, y2), …, (xl, yl)}，其中xi是数据，yi是标签。对于一个未标记示例集U = {xl+1, x l+1, … , xl+u}，I《u，于是，我们期望学得函数 f:X→Y 可以准确地对未标识的数据xi预测其标记yi。这里均为d维向量, yi∈Y为示例xi的标记。
半监督学习就是以“已知之认知（标签化的分类信息）”，扩大“未知之领域（通过聚类思想将未知事物归类为已知事物）”。但这里隐含了一个基本假设——“聚类假设（cluster assumption）”，其核心要义就是：“相似的样本，拥有相似的输出”。

以上内容摘自深度学习之美 AI时代的数据处理与最佳实践-张玉宏【电子工业出版社 2018.07】

内容借鉴多方优秀材料并融合个人观点，如有不当，请指出。