让我们来了解一下深度学习吧

最新推荐文章于 2024-10-05 19:36:33 发布

2401_82423648

最新推荐文章于 2024-10-05 19:36:33 发布

阅读量796

点赞数 19

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/2401_82423648/article/details/136433344

版权

深度学习简介

深度学习是一种基于神经网络的学习方法。和传统的机器学习方法相比，深度学习一般需要更丰富的数据、更强大的计算能力，从而达到更高的准确率。目前，深度学习方法被广泛应用于计算机视觉、自然语言处理、强化学习全等领域。

1.计算机视觉

1.1.1定义

计算机视觉是指使用计算机及相关设备对生物视觉的一种模拟。它的主要任务是通过对采集的图片或视频进行处理以获得相应场景的三维信息。计算机视觉是关于如何运用照相机和计算机来获取我们所需的被拍摄对象的数据与信息的学问。形象地说，计算机视觉就是给计算机安装上“眼睛”(照相机)和“大脑”(算法)，让计算机能够感知环境。

1.1.2 基本任务

计算机视觉的基本任务包含图像处理、模式识别(图像识别)、图像理解(景物分析)等。除此之外，计算机视觉还包括对空间形状的描述、几何建模以及认识过程。实现图像理解是计算机视觉的终极目标。下面举例说明图像处理、模式识别和图像理解。
一、图像处理技术可以把输入图像转换成具有预期特性的另一幅图像。例如，可通过一定的处理使输出图像有较高的信噪比，或通过增强处理突出图像的细节，以便于操作员的检验。在计算机视觉研究中经常利用图像处理技术进行预处理和特征抽取。
二、模式识别技术是指根据从图像中抽取的统计特性或结构信息，把图像分成预定的类别。常见的模式识别有文字识别或指纹识别等。在计算机视觉中，模式识别技术经常用于图像中的某些部分，例如分割区域的识别和分类。
三、图像理解技术是对图像内容所包含的信息的理解。给定一幅图像，图像理解程序不仅需要描述图像本身，还需要描述和解释图像所代表的景物，以便对图像传递的信息做出判定。在人工智能研究的初期，经常会使用景物分析这个术语，以强调二维图像与三维景物之间的区别。图像理解除了需要复杂的图像处理技术之外，还需要具有关于成像的物理规律的知识以及与景物内容相关知识。

1.1.3传统方法

在深度学习算法出现之前，视觉算法大致可以分为以下5个步骤:特征感知、图像预处理、
特征提取、特征筛选、推理预测与识别。在早期的机器学习中，占优势的统计机器学习群体对特征的重视程度是不够的。

1.1.4计算机视觉任务的应用

随着信息技术的发展，计算机视觉应用在人们的日常生活中、学术界和工业界已屡见不鲜，计算机视觉应用呈爆炸式增长，这里重点介绍计算机视觉任务的三大应用，分别是图像识别、目标检测和图像分割。
图像识别又叫图像分类，就是输入一张图片，输出该图像的类别，让计算机识别人、交通信号灯、动物等这些信息，这是广义上的图像识别。在工业界和学术界还有针对特定目标的识别，比如车牌识别，在高速公路的ETC口，不需要人工收费，摄像头会识别你的车牌并收取相应的费用。另外人脸识别在日常生活中也得到了广泛的应用，如支付宝的人脸支付等。

计算机视觉任务中另一个常见的应用是目标检测，其目的是输出给定图像中特定目标的位置，类别等。由此可见，目标检测是对目标识别的进一步发展，计算机不仅要输出图像中目标的位置，还要给出目标的类别。目标检测一个常见的应用是行人检测，比如在一个交通路口，快速地检测出摄像头中拍到的所有行人，可以估计人流数，从而对异常事件进行预警。

与计算机视觉任务相关的第三个任务是目标分割，图像分割又可分为图像语义分割和个体分割。图像语义分割是将图像分割成一个个独立的个体，每个个体具有一定的语义意义。图像个体分割是比图像语义分割更进一步的任务，其是图像语义分割和图像检测的结合，即不仅要独立出所有的物体，还要输出所有物体的位置。图像分割是计算机解释图像的过程，这类似于人理解图像，就需要找出图像中一个个的物体，找出物体之间的关系等。

计算机视觉的主要应用
医疗影像分析：在医疗领域，计算机视觉技术被用于分析X光、MRI和CT扫描等医学影像，帮助医生更准确地诊断疾病。
自动驾驶：自动驾驶汽车依赖计算机视觉来理解周围环境，包括行人检测、交通标志识别和车道跟踪。
安防监控：计算机视觉技术在安防领域用于实时监控视频，以便检测异常行为或跟踪特定目标。
工业检测：在制造业中，计算机视觉用于质量控制，检查产品缺陷或进行自动化装配。
零售分析：零售商利用计算机视觉分析顾客行为，优化店铺布局和库存管理。
农业自动化：计算机视觉技术在农业中用于作物监测、病虫害检测和收割自动化。
除了上述领域，计算机视觉还在许多其他领域有着广泛的应用，例如增强现实（AR）、虚拟现实（VR）、机器人导航、无人机侦察等。随着技术的不断进步，计算机视觉的应用领域将进一步扩大。

1.1.5现代深度学习

计算机视觉里经常使用的卷积神经网络(Conventional Neura l Network，CNN)，是一种比较精准的对人脑的模拟。人脑在识别图片的过程中，并不是同时又对整张图片进行识别，而是先感知图片的局部特征，之后将局部特征综合起来再得到图片的全经网络模拟了这一过程，其卷积层(Convolution，Conv)通常是堆叠的。低层I的卷积层可以提取到图片的局部特征，例如角、边缘、线条等;高层的卷积层能够从低层的卷积层中学到更复杂的特征，从而实现图片的分类和识别。

1.2自然语言处理

区别于计算机所使用的机器语言和程序语言，自然语言是指人类用于日常交流的语言。而自然语言处理的目的就是用计算机来理解和处理人类的语言。

1.2.1自然语言处理的基本问题

自然语言处理主要研究能实现人与计算机之间用自然语言有效通信的各种理论和方法，其基本问题如下所示。
1.语言建模:计算一个句子在一个语言中出现的概率。这是一个高度抽象的问题，在第8章有相关的详细介绍。它的一种常见形式是，给出句子的前几个词，预测下一个词是什么。
2.词性标注:句子都是由单独的词构成的，自然语言处理有时需要标注出句子中每一个词的词性。需要注意的是，句子中的词并不是独立的，在研究过程中，通常需要考虑词的上下文。
3.中文分词:中文的最小单位是字，但单个字的意义往往不明确或者含义较多，并且在多语言的任务中与其他以词为基本单位的语言不对等。因此无论是从语言学特性，还是从模型设计的角度来说，都需要将中文句子恰当地切分为单个的词。
4.句法分析:由于人类表达的时候只能逐词地按顺序说出句子，因此自然语言的句子也是扁平的序列。但这并不代表着一个句子中不相邻的词之间就没有关系，也不代表着整个句子中的词只有前后关系。它们之间的关系是复杂的，可能需要用树状结构或图才能表示清楚。在句法分析中，人们希望通过明确句子内两个或多个词的关系来了解整个句子的结构，句法分析的最终结果是一棵句法树。
5.情感分类:给出一个句子，我们希望知道这个句子表达了什么情感。情感分类有时候是指正面/负面的二元分类，有时候是指更细粒度的分类。情感分类的结果有时候是仅仅给出一个句子，有时候是指定对于特定对象的态度情感。
6.机器翻译:最常见的是把源语言的一个句子翻译成目标语言的一个句子。与语言建模相似，如给定目标语言一个句子的前几个词，预测下一个词是什么，最终预测出来的整个目标语言句子必须与给定的源语言句子具有完全相同的含义。
7.阅读理解:其有许多种实现形式。有时候是输人一个段落或一个问题，生成一个回答(类似问答)，或者在原文中标定一个范围作为回答(类似从原文中找对应句子)，有时候是输出一个分类(类似选择题)。

1.3强化学习

1.3.1什么是强化学习?

强化学习是机器学习的一个重要分支，它与非监督学习、监督学习并列为机器学习的3类主要学习方法，三者之间的关系如图1.7所示。

强化学习强调如何基于环境行动，以取得最大化的预期利益，所以强化学习可以被理解为决策问题。它是多学科、多领域交叉的产物，其灵感来自心理学的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。强化学习的应用范围非常广泛，各领域对它的研究重点各有不同。

监督学习是指通过带有标签或对应结果的样本训练得到一个最优模型，再利用这个模型将所有的输入映射为相应的输出，以实现分类。
非监督学习是指在样本的标签未知的情况下，根据样本间的相似性对样本集进行聚类，使类内差距最小化，学习出分类器。