【深度学习知识梳理】

一:深度学习

在这里插入图片描述

一:深度学习简介

  深度学习是一种基于神经网络的学习方法。和传统的机器学习方法相比,深度学习模型一般需要更丰富的数据、更强大的计算资源,同时也能达到更高的准确率。目前,深度学习方法被广泛应用于计算机视觉、自然语言处理、语音识别,强化学习等领域。

二:深度学习的定义及分类

深度学习定义:
一种基于人工神经网络的机器学习算法,它通过多层次的网络结构来学习数据的高层特征和规律。
深度学习分类:
按网络结构分类:
•前馈神经网络(Feedforward Neural Networks):信息单向流动,从输入层到输出层,中间可以有多个隐藏层。这种网络在深度学习中非常常见,用于各种模式识别任务。
循环神经网络(Recurrent Neural Networks, RNN):具有反馈环路,能够处理序列数据,如时间序列分析或自然语言处理。
•卷积神经网络(Convolutional Neural Networks, CNN):特别适用于图像和视频分析,通过卷积层来提取空间特征。
•深度信念网络(Deep Belief Networks, DBN):由多层受限玻尔兹曼机(RBM)堆叠而成,通常用于特征提取和降维。
•自编码器(Autoencoders):用于数据的压缩表示,通过学习输入数据的高效编码和解码。
•生成对抗网络(Generative Adversarial Networks, GAN):由生成器和判别器组成,能够生成新的、与真实数据相似的数据样本。

按应用领域分类:
•计算机视觉:包括图像分类、目标检测、语义分割等任务。
•自然语言处理:涉及文本分类、情感分析、机器翻译等领域。
•语音识别:将语音信号转换为文本的技术。
•游戏和决策制定:如棋类游戏中的AI对手。
•推荐系统:基于用户的历史行为数据提供个性化推荐。

按学习方法分类:
•监督学习:模型通过标注数据进行训练,预测给定输入的输出。
•无监督学习:模型在没有标签的数据中学习数据的结构和分布。
•半监督学习:结合少量标注数据和大量未标注数据进行训练。
•强化学习:模型通过与环境的交互来学习最佳行动策略。

按优化目标分类:
•分类问题:预测离散标签或类别。
•回归问题:预测连续值或数量。
•聚类问题:将数据分组到不同的集群中。
•降维问题:减少数据的维度,同时保留重要的特征信息
深度学习目标
通过模拟人类的认知能力,实现更接近于人工智能的技术水平,并在各种应用场景中提供更高效、更准确的数据处理能力。

三:深度学习主要术语

在这里插入图片描述

•神经元(Neuron):神经元是构成神经网络的基本单元,它接收输入,进行处理后产生输出,这个输出可以被发送到其他神经元进一步处理。
•权重(Weight):在神经网络中,输入数据在进入神经元时会乘以一个权重,这个权重决定了输入的重要性。
•激活函数(Activation Function):为了使得神经网络能够学习复杂的决策边界,会在网络的某些层应用非线性的激活函数,如sigmoid、tanh和ReLU。
•长尾效应(Long-tail):在数据分布中,大部分的数据是出现次数少的数据,而不是集中在高频率高值的数据。在深度学习中,这可能指大模型在众多小领域的安全性问题占据了主要部分。
•训练量标准(Batch/Step):在大模型的训练中,由于处理的数据量巨大,需要更精确和细粒度的衡量训练量的标准。
•损失函数(Loss Function):损失函数用于衡量模型预测结果与真实标签之间的差异。
•优化器(Optimizer):优化器是深度学习中用于更新网络权重的算法,以最小化损失函数。常见的优化器包括随机梯度下降(Stochastic Gradient Descent, SGD)、Adam、RMSprop等。
•梯度(Gradient):梯度是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值。
•前向传播(Forward Propagation):前向传播是指数据在神经网络中从输入层到输出层的传递过程。
•反向传播(Backpropagation):反向传播是一种算法,用于在神经网络中计算梯度

二:计算机视觉在这里插入图片描述

一:计算机视觉简介

计算机视觉是人工智能的一个重要分支,它涉及到让计算机能够从数字图像或视频中获取高层次的理解,还是一个多学科交叉的领域,它结合了图像处理、模式识别、机器学习等多个领域的技术,以实现对视觉信息的自动化解析和理解。随着技术的不断进步,计算机视觉的应用范围和影响力也在不断扩大。

二:计算机视觉定义

计算机视觉是一门研究如何使计算机能够获取、处理、分析和理解数字图像的科学。

三:计算机视觉基本任务

图像分类
图像分类的概念:
计算机视觉是一门研究如何使计算机能够获取、处理、分析和理解数字图像的科学。
图像处理技术
图像处理技术基本过程
图像理解技术
在这里插入图片描述

图像分类的过程:
•数据收集与预处理:在开始分类之前,需要构建一个包含大量标注图像的数据集。这个数据集被分为训练集、验证集和测试集。数据预处理包括图像的裁剪、缩放、归一化等操作,目的是减少模型训练过程中的变量,提高分类准确率。
•特征提取:此步骤涉及从图像中提取有助于分类任务的特征。这些特征可以是颜色、纹理、形状等。在深度学习方法中,特征提取通常由卷积神经网络(CNN)自动完成。
•模型训练:使用训练集来训练分类模型。在这个过程中,模型会学习如何将提取的特征映射到正确的类别标签上。深度学习模型,尤其是CNN,已经在图像分类任务中取得了显著的成果。
•模型评估与优化:利用验证集对模型进行评估,并根据评估结果调整模型参数或结构。这个过程可能会涉及到超参数的选择和调整,以提高模型的性能。
模型测试:在测试集上评估模型的最终性能。这一步骤可以确保模型在未见过的数据上也能保持良好的泛化能力。

目标检测
在这里插入图片描述

目标检测概念
目标检测是一种计算机视觉技术,旨在识别图像或视频中的多个目标,并确定它们的类别和位置。
目标检测过程
•首先,确定图像中是否存在感兴趣的目标;
•其次,如果存在,精确地定位这些目标的位置。目标检测的应用非常广泛,包括但不限于自动驾驶汽车中的行人和障碍物检测、安全监控中的异常行为检测、医疗影像分析中的病变检测等。
在这里插入图片描述

三:自然语言处理

在这里插入图片描述

一:自然语言处理简介

自然语言处理(NLP)是计算机科学和人工智能领域中的一个重要分支,它涉及到使计算机能够理解、解释和生成人类语言的技术。
自然语言处理结合了语言学、计算机科学和数学等多个学科的知识,旨在实现人和计算机之间有效的自然语言通信。NLP的研究内容包括机器翻译、文本摘要、文本分类、信息抽取、语音识别和合成等。这些技术不仅在人机交互中发挥作用,还在数据分析、客户服务、智能助手等领域有着广泛的应用。随着深度学习技术的发展,NLP领域也取得了显著的进步。

二:自然语言处理的定义

自然语言处理(NLP)是计算机科学、人工智能和语言学领域的交叉学科,它涉及到使计算机能够理解、处理和生成人类语言的技术。

三:自然语言关键组成部分

•语言模型:这些模型用于预测单词序列的可能性,是许多NLP任务的基础。
•句法分析:通过分析句子结构来理解语句的语法关系。
•语义分析:理解句子的意义,包括词义消歧和上下文理解。
•情感分析:判断文本的情感倾向,如积极、消极或中立。
•机器翻译:将一种语言的文本自动翻译成另一种语言。
•语音识别:将语音转换为文本。
•文本生成:根据给定的信息生成新的文本内容。

四:自然语言处理基本任务

1.序列标注任务:这类任务涉及到对文本序列中的每一个元素(通常是单词)进行标签标注。例如,在信息提取中,可能需要识别出文本中的特定实体,如人名、地名或时间等。
2.分类任务:在NLP中,分类任务通常指的是将文本数据分配到预定义的类别中。这可以应用于情感分析,判断文本的情感倾向,或者垃圾邮件检测,识别邮件是否为垃圾邮件。
3.句子关系判断:这个任务旨在分析和理解句子之间的关系,例如判断两个句子之间的逻辑关系是因果、并列还是转折等。
4.生成式任务:生成式任务是指根据给定的信息或上下文生成新的文本内容。典型的应用包括机器翻译、自动摘要和问答系统中的答案生成。
5.自然语言理解:这是NLP的一个重要方面,涉及让计算机理解自然语言文本的意义。这包括词汇、句法和语义层面的理解。
6.自然语言生成:与理解相对应,自然语言生成是指计算机能够使用自然语言来表达特定的信息或意图。

五:自然语言处理的基本问题

自然语言处理的基本问题

•语义理解:尽管NLP技术在词汇和语法层面取得了进展,但计算机对自然语言的深层语义理解仍然有限。这包括理解语境、把握对话进程以及捕捉言语中的隐含意义等。
•语言歧义:人类语言充满了歧义,如同音异义词、一词多义等现象。这些歧义给计算机正确理解语言带来了挑战,因为机器很难像人类那样根据上下文来消除这些歧义。
•分词:分词是NLP中的一个基本任务,它涉及到将文本分割成单词或短语。这个过程对于后续的语言处理任务至关重要,因为错误的分词会导致错误的语义理解。
•情感分析:情感分析旨在识别和提取文本中的情感倾向,这是一个具有挑战性的任务,因为它要求计算机不仅要理解文字的直接意义,还要识别作者的情绪和态度。
•文本分类:文本分类涉及根据内容将文本归入预定义的类别。这要求计算机能够理解文本的主题和意图,并将其与相应的类别匹配。
信息提取:信息提取是从大量文本中识别和提取出特定信息的过程。这需要精确的文本分析和模式识别能力。
•机器翻译:机器翻译是将一种语言的文本自动转换为另一种语言的过程。这个领域虽然取得了显著进步,但仍然存在挑战,如保持原文的语义和风格等。
•自然语言生成:自然语言生成是指计算机使用自然语言来表达特定的信息或意图。这要求计算机不仅要理解语言,还要能够创造性地使用语言来生成连贯和合理的文本。
•对话系统:构建能够与人类进行自然对话的系统是一个复杂的任务,它涉及到多个NLP问题的集成,包括理解用户的意图、维持对话状态和生成恰当的响应。
•语音识别:将语音转换为文本是一个技术上非常复杂的过程,它要求系统能够准确地识别不同人的发音、口音以及语言中的非口语化成分。

四:深度学习与神经网络发展

在这里插入图片描述

一:神经网络简介

神经网络是一种模拟人脑处理信息的计算模型,它在机器学习领域扮演着重要角色。
神经网络的核心组成是神经元,这些神经元可以看作是执行逻辑运算的函数。它们接收输入,经过加权和偏置处理后,通过激活函数产生输出。这些神经元被组织成层,包括输入层、隐藏层和输出层。每一层都负责不同的数据处理任务,而多层结构使得神经网络能够处理复杂的非线性问题

二:卷积神经网络(CNN)

卷积神经网络定义
卷积神经网络(CNN)是一种专门用于处理具有类似网格结构数据的深度学习算法,尤其在计算机视觉领域表现出色。
卷积神经网络的架构

在这里插入图片描述
如上图所示,卷积神经网络架构与常规人工神经网络架构非常相似,特别是在网络的最后一层,即全连接。此外,还注意到卷积神经网络能够接受多个特征图作为输入,而不是向量。

卷积网络的层级结构
一个卷积神经网络主要由以下5层组成:
数据输入层/ Input layer
卷积计算层/ CONV layer
ReLU激励层 / ReLU layer
池化层 / Pooling layer
全连接层 / FC layer

池化层介绍
池化层夹在连续的卷积层中间, 用于压缩数据和参数的量,减小过拟合。
简而言之,如果输入是图像的话,那么池化层的最主要作用就是压缩图像。

池化层的具体作用:
特征不变性,特征降维,在一定程度上防止过拟合,更方便优化。在这里插入图片描述池化层用的方法有Max pooling 和 average pooling,而实际用的较多的是Max pooling。这里就说一下Max pooling,其实思想非常简单。在这里插入图片描述对于每个2 * 2的窗口选出最大的数作为输出矩阵的相应元素的值,比如输入矩阵第一个2 * 2窗口中最大的数是6,那么输出矩阵的第一个元素就是6,如此类推。

三:LeNet网络

lenet网络的概念
LeNet是一个卷积神经网络模型,由Yann LeCun等人在1998年提出。它是用于手写数字识别任务的经典神经网络模型,也被广泛应用于其他图像分类任务。
LeNet的结构包含了多个卷积层、池化层和全连接层。它的输入是灰度图像,通常是32x32像素大小的图像。LeNet的核心思想是通过多层卷积和池化操作提取图像的局部特征,然后通过全连接层进行分类。
LeNet的具体结构如下:
在这里插入图片描述

  1. 第一层是卷积层,使用边缘检测滤波器提取图像的低级特征。
  2. 第二层是池化层,通过减小图像的空间维度来降低模型的计算量。
  3. 第三层是卷积层,进一步提取图像的高级特征。
  4. 第四层是池化层,继续降低图像的空间维度。
  5. 第五层是全连接层,将图像特征映射到标签空间,进行分类。
  6. 最后是输出层,采用softmax激活函数对分类结果进行归一化。
    通过LeNet模型的训练,可以实现对手写数字进行分类识别,取得较高的准确率。

四:AlexNet网络

AlexNet基本结构
AlexNet输入为RGB三通道的224 × 224 × 3大小的图像(也可填充为227 × 227 × 3 )。AlexNet 共包含5 个卷积层(包含3个池化)和 3 个全连接层。其中,每个卷积层都包含卷积核、偏置项、ReLU激活函数和局部响应归一化(LRN)模块。第1、2、5个卷积层后面都跟着一个最大池化层,后三个层为全连接层。最终输出层为softmax,将网络输出转化为概率值,用于预测图像的类别在这里插入图片描述
卷积+池化层(前五层)
AlexNet共有五个卷积层,每个卷积层都包含卷积核、偏置项、ReLU激活函数和局部响应归一化(LRN)模块。

卷积层C1:使用96个核对224 × 224 × 3的输入图像进行滤波,卷积核大小为11 × 11 × 3,步长为4。将一对55×55×48的特征图分别放入ReLU激活函数,生成激活图。激活后的图像进行最大池化,size为3×3,stride为2,池化后的特征图size为27×27×48(一对)。池化后进行LRN处理。

卷积层C2:使用卷积层C1的输出(响应归一化和池化)作为输入,并使用256个卷积核进行滤波,核大小为5 × 5 × 48。

卷积层C3:有384个核,核大小为3 × 3 × 256,与卷积层C2的输出(归一化的,池化的)相连。

卷积层C4:有384个核,核大小为3 × 3 × 192。

卷积层C5:有256个核,核大小为3 × 3 × 192。卷积层C5与C3、C4层相比多了个池化,池化核size同样为3×3,stride为2。

其中,卷积层C3、C4、C5互相连接,中间没有接入池化层或归一化层。

2、全连接层(后三层)
全连接层F6:因为是全连接层,卷积核size为6×6×256,4096个卷积核生成4096个特征图,尺寸为1×1。然后放入ReLU函数、Dropout处理。AlexNet使用了Dropout层,以减少过拟合现象的发生。
全连接层F7:同F6层。
全连接层F8:最后一层全连接层的输出是1000维softmax的输入,softmax会产生1000个类别预测的值。在这里插入图片描述

五:传统方法与神经网络方法的比较

传统方法适用于特征工程比较成熟、数据较少或易解释性要求高的场景;
神经网络方法适用于数据较大、特征难以手动设计或对模型性能要求较高的场景。
在实际应用中,可以根据问题的特点和数据的性质选择合适的方法。

五:强化学习

一:强化学习的定义

定义:
强化学习是一种机器学习的方法,通过让智能体在与环境的交互中学习如何做出最优决策。
强化学习(reinforcement learning)应用:
机器人、对话系统,甚至开发视频游戏的人工智能(AI)。
深度强化学习(deep reinforcement learning)
将深度学习应用于强化学习的问题,是非常热门的研究领域。
强化学习的四个因素
在这里插入图片描述
强化学习的目标:
强化学习算法的目标就是获得最多的累计奖励(正反馈)。
在这里插入图片描述
强化学习的特征
强化学习具有以下特征:

  1. 基于试错:强化学习通过在环境中进行试错来学习。它不需要预先标记的数据,而是通过与环境的交互来自主地学习。

  2. 奖励驱动:强化学习算法的目标是最大化长期累积奖励。它通过观察环境的反馈奖励来调整自己的行为,以取得更高的奖励。

  3. 基于序列的决策:强化学习涉及连续的决策过程,即智能体在不同的时间步骤中根据观察和奖励作出决策。它的目标是在不同的时间步骤中选择最优的行动来获得最大的奖励。

  4. 学习和规划的结合:强化学习既可以进行现场学习,也可以进行规划。现场学习是指根据当前的观察和反馈奖励调整智能体的行为,而规划是指使用模型来预测未来的状态和奖励来做出决策。

  5. 延迟奖励问题:强化学习面临的一个主要挑战是延迟奖励问题。由于奖励可能在未来的时间步骤中才出现,因此智能体必须能够将延迟的奖励与其导致的行为联系起来。

  6. 探索与利用的平衡:强化学习需要在探索和利用之间进行平衡。探索是指探索未知的环境和行动,以发现更好的策略,而利用是指利用已知的信息来选择最优的行动。

  7. 模型无关性:强化学习不依赖于对环境的详细模型,而是通过与环境的交互来学习。这使得强化学习可以应用于各种不同的环境和任务中。

二:监督学习

监督学习是通过带有标签或对应结果的样本训练得到一个最优模型,再利用这个模型将所有输入映射为相应输出,以实现分类
监督学习之所以能发挥作用,是因为在训练参数时,我们为模型提供了一个数据集,其中每个样本都有真实的标签。在这里插入图片描述

三:非监督学习

非监督学习是在样本的标签未知的情况下,根据样本之间的相似性对样本集进行聚类,使类内差距最小化,学习出分类器
无监督学习的常见应用包括
聚类分析、降维、异常检测和关联规则挖掘。
•聚类分析是将数据按照其相似性分成不同的群组,每个群组内的数据之间具有更高的相似性;
•降维是将高维数据映射到低维空间,以便更好地理解和可视化数据;异常•检测是识别与其他数据不同的异常数据;
关联规则挖掘是发现数据中的频繁项集和关联规则。

无监督学习的具体算法
k-means聚类、层次聚类、主成分分析(PCA)、独立成分分析(ICA)、自编码器和关联规则挖掘算法等。这些算法可以根据数据的特点和问题的需求选择合适的方法。

无监督学习的优点
可以发现隐藏的模式和结构,不需要人工标记的数据;缺点是结果的解释性较差,很难评估算法的效果。因此,无监督学习常常需要与其他领域(如数据可视化和领域知识)相结合,以便更好地理解和利用学到的知识。

四:强化学习算法简介

在这里插入图片描述
强化学习算法应用
交互性检索是在检索用户不能构建良好的检索式(关键词)的情况下,通过与检索平台交流互动并不断修改检索式,从而获得较准确检索结果的过程。在这里插入图片描述
新闻推荐需要:获取用户请求,召回候选新闻,对候选新闻进行排序,最终给用户推出新闻。
无人驾驶被认为是强化学习短期内能技术落地的一个应用方向,很多公司投入大量资源在无人驾驶上,其中百度的无人巴士“阿波龙”已经在北京、武汉等地展开试运营。
游戏领域:强化学习在游戏中的应用非常广泛。例如,在电子游戏中,强化学习算法可以训练智能体来学习如何玩游戏,并制定最佳策略来获得高分或战胜对手。AlphaGo就是一个成功的示例,它通过强化学习击败了世界冠军围棋选手。

  • 21
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值