深度学习--深度学习简介

目录

一、深度学习简介

1、简介

2、应用

二、计算机视觉的基本任务

1、定义

2、计算机视觉算法步骤

3、应用

三、自然语言处理

1、ChatGPT

2、自然语言处理

3、主要任务

四、深度学习与神经网络

1、学习过程

2、卷积神经网络(CNN)

3、LeNet网络

4、AlexNet网络(LeNet“放大版”):

五、强化学习

1、监督学习与非监督学习

2、与环境互动

3、强化学习

六、强化学习算法

1、简介

2、强化学习算法的应用


一、深度学习简介

  • 卷积神经网络可以模拟人类处理视觉信息的方式提取图像特征,极大地推动了计算机视觉领域的发展。
  • 自然语言处理是典型的时序信息分析问题,其主要应用包括句法分析、情感分类、机器翻译等。
  •  强化学习强调智能体与环境的交互与决策,具有广泛的应用价值。通过引入深度学习,模型的函数拟合能力得到了显著的提升,从而可以应用到一系列高层任务中。
1、简介
  • 深度学习是一种基于神经网络的学习方法。和传统的机器学习方法相比,深度学习模型一般需要更丰富的数据、更强大的计算资源,同时也能达到更高的准确率。目前,深度学习方法被广泛应用于计算机视觉、自然语言处理、强化学习等领域。本章将依次进行介绍。
2、应用
  • 深度学习目前在很多领域的表现都优于过去的方法,在图像分类与识别、语音识别与合成、人脸识别、视频分类与行为识别等领域都有着不俗的表现。 除此以外,深度学习还涉及到与生活相关的纹理识别、行人检测、场景标记、门牌识别等领域。
  • 人脸识别采用深度学习方法后的识别率超过了目前非深度学习算法以及人类的识别率,深度学习技术在语音识别领域更是取得了突破性的进展,在大规模图像分类问题上也远超传统方法。

表征学习:学习从高维空间到低维空间的映射(降维) 维度越高,需要数据量就越大。Mapping from features:学习器。特征提取(人工选择特征)与学习器是分开的。 深度学习:特征提取与学习器是一起的,卷积。(end to end)

  • 深度学习关键:这些层次的特征不是由人工设计的,而是使用一种通用的学习步骤从数据中学习获取的(学习得到的)。这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。
  • 深度学习在搜索技术、数据挖掘、机器翻译、多媒体学习、语音识别、推荐和个性化技术以及其他相关领域都取得了很多成果。
  • 深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步,最终目标是让机器能够像人一样具有分析学习能力。

二、计算机视觉的基本任务

1、定义
  • 计算机视觉是一门研究如何使机器“看”的科学,涉及计算机如何从数字图像或视频中获得高级理解。 形象地说,即通过给计算机安装上眼睛(照相机)和大脑(算法),让计算机能够感知环境。
  • 以代替人眼对目标进行识别、跟踪和测量等操作,并对图像进行进一步的处理,使图像更适合人眼观察或传入仪器。
  • 计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。
  • 作为一门综合性的学科,计算机视觉已经吸引了来自各个学科的研究者参加到对它的研究之中。 其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学、神经生理学和认知科学等学科。
2、计算机视觉算法步骤

计算机视觉的基本任务包含图像处理、模式识别或图像识别、景物分析、图像理解等。除了图像处理和模式识别之外,它还包括空间形状的描述,几何建模以及认识过程。实现图像理解是计算机视觉的终极目标。

       在深度学习算法出现之前,对于计算机视觉算法来说,大致可以分为以下5个步骤:

3、应用

(1)图像分类:

  • 图像分类是深度学习中最常见的应用之一。它的目标是将图像分到预定义的类别中。深度学习通过多层神经网络来学习图像的抽象特征。这些特征可以从原始像素值或者低级特征(如边缘、纹理等)中提取出来,然后通过多个隐藏层进行非线性组合和转换,最终得到高级语义特征。
  • 卷积神经网络(Convolutional Neural Network, CNN):主要用于图像分类和识别任务,包括LeNet、AlexNet、VGG、GoogLeNet、ResNet
  • 生成对抗网络(Generative Adversarial Network, GAN):用于生成新样本,主要包括GAN、DCGAN、WGAN等

图像分类步骤:

  • 数据准备:收集并准备用于训练和测试的图像数据集。这些数据集应包含图像和对应的标签,标签表示图像所属的类别。
  • 网络设计:选择适当的神经网络架构,如卷积神经网络(Convolutional Neural Networks, CNN),用于图像分类任务。CNN是一种特殊的神经网络结构,具有卷积层、池化层和全连接层等组件,可以有效地处理图像数据。
  • 模型训练:使用训练数据集来训练深度学习模型。在训练过程中,模型根据输入的图像数据进行前向传播计算,并根据与标签的差异来调整网络的参数,以最小化预测结果与实际标签之间的误差。
  • 模型评估:使用测试数据集来评估模型的性能。常用的评估指标包括准确率、精确率、召回率和F1得分等。
  • 模型优化:根据评估结果来优化模型的性能。可以通过调整网络架构、改变超参数、增加训练数据量等方式来改进模型的准确性和泛化能力。

(2)目标检测:

  • 目标检测是指在图像或视频中识别和定位特定目标的任务。目标可以是人、车辆、动物等。目标检测的目标是找出图像中的目标对象,并给出其位置和范围。
  • 目标检测=分类+定位

目标检测步骤:

  • 候选区域生成:使用一些候选区域生成算法,生成可能包含目标的区域。
  • 特征提取:对每个候选区域提取特征,如颜色、纹理、形状等。
  • 目标分类:使用机器学习或深度学习算法,将每个候选区域分类为目标或非目标。
  • 边界框回归:对于被分类为目标的候选区域,通过回归算法校正其边界框的位置和大小。
  • 非极大值抑制(NMS):对于多个重叠的候选区域,保留具有最高置信度的目标,去除冗余的区域。

三、自然语言处理

1、ChatGPT
  • ChatGPT是一种基于OpenAI GPT(Generative Pre-trained Transformer)模型的对话生成模型。
  • 它是OpenAI公司推出的一种自然语言处理模型,旨在通过生成自然流畅的对话响应来实现人机交互。
  • ChatGPT是通过在大量的对话数据上进行预训练,学习语言模式和对话流程,然后根据用户输入产生相应的回复。
  • 它可以用于诸如客户服务、虚拟助手、编程帮助等任务,为用户提供实用的对话交互体验。
  • 同时,OpenAI还通过与用户的交互来不断改进和优化ChatGPT模型,以提供更准确和有用的回复。
2、自然语言处理
  • 深度学习自然语言处理(Natural Language Processing,NLP)是人工智能和语言学领域的分支学科。
  • 自然语言处理包含机器理解、解释和生成人类语言的方法,因此,也将它描述为自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)。
  • 传统的NLP方法采用基于语言学的方法,它基于语言的基本语义和句法元素(如词性)构建。
  • 基于深度学习的自然语言处理避开了对中间元素的需求,并且可以针对通用任务学习该任务本身的层次表示。
  • 1966年自动语言处理咨询委员会的报告强调了机器翻译从流程到实施成本面临的巨大困难,导致投资方减少了在资金方面的投资,使得NLP的研究几乎停滞。
3、主要任务
  • 语言建模:计算一个句子在一个语言中出现的概率。
  • 中文分词:将中文句子恰当地切分为单个的词。
  • 句法分析:通过明确句子内两个或多个词的关系来了解整个句子的结构。最终句法分析的结果是一棵句法树。
  • 情感分析:给出一个句子,判断这个句子表达的情感。
  • 机器翻译:最常见的是把源语言的一个句子翻译成目标语言的一个句子,最终预测出来的整个目标语言句子必须与给定的源语言句子具有完全相同的含义。
  • 阅读理解:有许多形式。有时候是输入一个段落,一个问题,生成一个回答,或者在原文中标定一个范围作为回答,有时候是输出一个分类。
  • 语言生成:通过模型和算法,使计算机能够生成符合语法和语义规则的人类语言。
  • 信息检索:通过分析和索引大量的文本数据,使计算机能够快速准确地检索相关信息。
  • 语言理解:通过分析文本和语音,使计算机能够理解人类语言的意义和目的。

四、深度学习与神经网络

1、学习过程

(1)图像处理

  • 卷积就是两个函数之间的相互关系。在计算机视觉里面,可以把卷积当作一个抽象的过程,就是把小区域内的信息统计抽象出来。
  • 用学习好的卷积和对图像进行扫描,然后每一个卷积和会生成一个扫描的响应图,我们叫response map,或者叫feature map。如果有多个卷积和,就有多个feature map。也就说从一个最开始的输入图像(RGB三个通道)可以得到256个通道的feature map,因为有256个卷积和,每个卷积和代表一种统计抽象的方式。

(2)池化操作

  • 池化操作在统计上的概念更明确,就是一个对一个小区域内求平均值或者求最大值的统计操作。带来的结果是,如果之前输入有两个通道的,或者256通道的卷积的响应feature map,每一个feature map都经过一个求最大的一个池化层,会得到一个比原来feature map更小的256的feature map。

2、卷积神经网络(CNN)

卷积神经网络是一种对人脑比较精准的模拟,它模拟了人脑识别图片时感知图片中的局部特征,之后将局部特征综合起来再得到整张图的全局信息的过程。其卷积层通常是堆叠的,低层的卷积层可以提取到图片的局部特征,高层的卷积能够从低层的卷积层中学到更复杂的特征,从而实现到图片的分类和识别。

3、LeNet网络

4、AlexNet网络(LeNet“放大版”):

输入:大小为224X224像素的图片。

特征:第一层,都是一些填充的块状物和边界等特征中间的层开始学习一些纹理特征;而在接近分类器的高层,则可以明显看到的物体形状的特征。最后的一层,即分类层,不同物体的主要特征已经被完全提取出来。

五、强化学习

1、监督学习与非监督学习

(1)监督学习

  • 监督学习是通过带有标签或对应结果的样本训练得到一个最优模型,再利用这个模型将所有输入映射为相应输出,以实现分类

监督学习之所以能发挥作用,是因为在训练参数时,我们为模型提供了一个数据集,其中每个样本都有真实的标签。

即使使用简单的描述给定输入特征的预测标签,监督学习也可以采取多种形式的模型,并且需要大量不同的建模决策,这取决于输入和输出的类型、大小和数量。 例如,我们使用不同的模型来处理“任意长度的序列”或“固定长度的序列”。

(2)非监督学习

  • 非监督学习是在样本的标签未知的情况下,根据样本之间的相似性对样本集进行聚类,使类内差距最小化,学习出分类器

(3)无监督学习

  • 生成对抗性网络(generative adversarial networks): 为我们提供一种合成数据的方法,甚至像图像和音频这样复杂的非结构化数据。 潜在的统计机制是检查真实和虚假数据是否相同的测试。 它是无监督学习的另一个重要而令人兴奋的领域。
2、与环境互动
  • 到目前为止,不管是监督学习还是无监督学习,我们都会预先获取大量数据,然后启动模型,不再与环境交互。 这里所有学习都是在算法与环境断开后进行的,被称为离线学习(offline learning)。
  • 离线学习有它的魅力: 好的一面是,我们可以孤立地进行模式识别,而不必分心于其他问题。  但缺点是,解决的问题相当有限。 这时我们可能会期望人工智能不仅能够做出预测,而且能够与真实环境互动。 与预测不同,“与真实环境互动”实际上会影响环境。 这里的人工智能是“智能代理”,而不仅是“预测模型”。 因此,我们必须考虑到它的行为可能会影响未来的观察结果。
3、强化学习

(1)简介

  • 强化学习是机器学习的一个重要分支,它与非监督学习、监督学习并列为机器学习的三类主要学习方法。
  • 强化学习强调如何基于环境行动,以取得最大化的预期利益,所以强化学习可以被理解为决策问题。它是多学科多领域交叉的产物,其灵感来自于心理学的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

(2)应用

  • 强化学习(reinforcement learning)应用:机器人、对话系统,甚至开发视频游戏的人工智能(AI)。
  • 深度强化学习(deep reinforcement learning)将深度学习应用于强化学习的问题,是非常热门的研究领域。
  • 强化学习的例子: 
  • 突破性的深度Q网络(Q-network)在雅达利游戏中仅使用视觉输入就击败了人类;
  • 以及 AlphaGo 程序在棋盘游戏围棋中击败了世界冠军。

(3)目标

       强化学习算法的目标就是获得最多的累计奖励(正反馈)。以“幼童学习走路”为例:幼童需要自主学习走路,没有人指导他应该如何完成“走路”,他需要通过不断的尝试和外界对他的反馈来学习走路。

(4)特征

六、强化学习算法

1、简介

  • Model-Based算法:agent可以根据模型预测下一步的结果,并提前规划行动路径。但真实模型和学习到的模型是有误差的,这种误差会导致agent虽然在模型中表现很好,但是在真实环境中可能打不到预期结果。
  • Model-Free算法:Model-Free的算法看似随意,但这恰好更易于研究者们去实现和调整。比如:Q-learning和SARSA。
  • 基于概率的算法:基于概率的算法直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。每种动作都有可能被选中, 只是可能性不同。基于概率的算法的代表算法为policy-gradient。
  • 基于价值的算法:基于价值的算法输出的则是所有动作的价值, 然后根据最高价值来选择动作, 相比基于概率的方法, 基于价值的决策部分更为死板——只选价值最高的,而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到它。基于价值的算法的代表算法为Q-Learning。
2、强化学习算法的应用
  •  交互性检索是在检索用户不能构建良好的检索式(关键词)的情况下,通过与检索平台交流互动并不断修改检索式,从而获得较准确检索结果的过程。
  •  新闻推荐需要:获取用户请求,召回候选新闻,对候选新闻进行排序,最终给用户推出新闻。将用户持续浏览新闻的推荐过程看成一个决策过程,通过强化学习学习每一次推荐的最佳策略,提高用户的点击率。
  • 无人驾驶被认为是强化学习短期内能技术落地的一个应用方向,很多公司投入大量资源在无人驾驶上,其中百度的无人巴士“阿波龙”已经在北京、武汉等地展开试运营,自动无人驾驶的行车视野如下图所示。 未来生活中,深度学习算法在交通领域的应用,可能会创造出一个完全智能调度的移动出行网络。
  • 游戏领域:强化学习在游戏中的应用非常广泛。例如,在电子游戏中,强化学习算法可以训练智能体来学习如何玩游戏,并制定最佳策略来获得高分或战胜对手。AlphaGo就是一个成功的示例,它通过强化学习击败了世界冠军围棋选手。
  • 25
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值