深度学习的应用及展望

dwdffef

已于 2024-05-05 19:21:58 修改

阅读量1.5k

点赞数 47

文章标签：深度学习人工智能

于 2024-05-05 19:20:33 首次发布

本文链接：https://blog.csdn.net/dwdffef/article/details/138471886

版权

一、目标监测问题

目标检测是在给定的图片中精确找到物体所在位置，并标注出物体的类别。物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，并且物体还可以是多个类别。

1、YOLO

YOLO是目标检测领域的一个集大成的方法，目标检测经过很多发展，从R-CNN、SPP NET、Fast R-CNN、Faster R-CNN,最终才实现YOLO。
目标监测的基本手段可以是滑动窗口，如下图所示。然而，滑动窗口的方法由于滑动次数太多，导致计算太慢。且目标大小不同，每一个滑动位置需要用很多框。
在这里插入图片描述
对于滑动窗口的改进：
➢ 一般图片中，大多数位置都不存在目标。
➢ 可以确定那些更有可能出现目标的位置，再有针对性的用CNN进
行检测——两步法（Region Proposal）
➢ 两步法依然很费时！
➢ 进一步减少出现目标的位置，而且将目标分类检测和定位问题
合在一个网络里——一步法（YOLO）
一步法的基本思想是把分类问题扩展为回归＋分类问题，例如，一个框里有一个目标，可以取目标中心点所在的框。
YOLO官方的模型结构图如下
在这里插入图片描述

网络结构包含24个卷积层和2个全连接层；其中前20个卷积层用来做预训
练，后面4个是随机初始化的卷积层，和2个全连接层。
YOLO当中有很多新定义的名词，例如包围框，指的是包围目标物体的方框。结合包围框，我们可以算出置信度。置信度是一个网格内有物体的概率,IOU是预测的anchor和真实的物体位置的交并比，如下图所示。
在这里插入图片描述

YOLO网络的损失函数一共有五项。包括边界框中心点的损失，边界框的宽度、高度损失，置信度的损失（包含物体），置信度的损失（不包含物体）、类别损失。
在这里插入图片描述

采用NMS算法（非极大值抑制），NMS的核心思想是选择得分最高
的作为输出，与该输出重叠的去掉，不断重复这一过程直到所有备选处理完。NMS算法的要点是：

首先丢弃概率小于预定IOU阈值（例如0.5）的所有边界框；对
于剩余的边界框：
选择具有最高概率的边界框并将其作为输出预测；
计算 “作为输出预测的边界框”，与其他边界框的相关联IoU
值；舍去IoU大于阈值的边界框；其实就是舍弃与“作为输出预
测的边界框” 很相近的框框。
重复步骤2，直到所有边界框都被视为输出预测或被舍弃
YOLO目前最新的版本已经更新到YOLOv9，其识别精度与功能扩展随着版本更新不断提升。

2、语义分割

所谓语义分割问题，在目标检测领域，是指找到同一画面中的不同类型目标区域。如下图所示。
在这里插入图片描述

语义分割的目标是对图中每一个像素进行分类，得到对应的标签。
在这里插入图片描述

常用的网络有FCN。网络结构如下图所示。
在这里插入图片描述

常见的FCN评价指标。如下图所示。
在这里插入图片描述

3、风格迁移

如果你是一位摄影爱好者，也许接触过滤镜。它能改变照片的颜色样式，从而使风景照更加锐利或者令人像更加美白。但一个滤镜通常只能改变照片的某个方面。如果要照片达到理想中的样式，经常需要尝试大量不同的组合，其复杂程度不亚于模型调参。在风格迁移问题当中，我们需要两张输入图像，一张是内容图像，另一张是样式图像，我们将使用神经网络修改内容图像使其在样式上接近样式图像。
➢ 方法
⚫ 首先，我们初始化合成图像，例如将其初始化成内容图像。该合成图
像是样式迁移过程中唯一需要更新的变量，即样式迁移所需迭代的模
型参数。
⚫ 然后，我们选择一个预训练的卷积神经网络来抽取图像的特征，其中
的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽
取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式
特征。
以之前放的图像为例，这里选取的预训练的神经网络含有3个卷积层，
其中第二层输出图像的内容特征，而第一层和第三层的输出被作为图像
的样式特征。
接下来，我们通过正向传播（实线箭头方向）计算样式迁移的损失函数
，并通过反向传播（虚线箭头方向）迭代模型参数，即不断更新合成图
像。
在这里插入图片描述

样式迁移常用的损失函数由3部分组成：
⚫ 内容损失（content loss）使合成图像与内容图像在内容特征上接近
⚫ 样式损失（style loss）令合成图像与样式图像在样式特征上接近
⚫ 总变差损失（total variation loss）则有助于减少合成图像中的噪点。
最后，当模型训练结束时，我们输出样式迁移的模型参数，即得到最终
的合成图像。

二、神经网络与NLP

NLP问题其实涉及到序列的建模问题。在transformer出现之前，循环神经网络（RNN）和长短期记忆网络（LSTM）受到广泛应用。
在这里插入图片描述

为了改善长距离的“遗忘”问题，引入LSTM。LSTM（Long Short-Term Memory）是一种特殊的循环神经网络（RNN），设计用于解决长期依赖问题，即在处理包含长序列数据时，能有效记住并利用远距离过去的信息，同时避免梯度消失和梯度爆炸问题。这种能力使得LSTM在诸如语音识别、机器翻译、情感分析等需要对时间序列数据进行建模的任务中表现出色。
LSTM的核心结构是记忆单元，它通过一系列精心设计的“门”来控制信息的流动，这些门包括：
输入门（Input Gate）：决定新信息有多少被存储到细胞状态中。
遗忘门（Forget Gate）：确定细胞状态中哪些信息需要被遗忘或保留。
输出门（Output Gate）：控制细胞状态中哪些信息应该输出到下一个时间步骤或用于预测。
每个门都是一个 sigmoid 函数层，它们决定了信息如何被更新或丢弃。此外，LSTM还包括一个称为“细胞状态”（Cell State）的部分，这个状态可以看作是网络的记忆单元，能够沿时间序列传递信息。信息在细胞状态中以加权和的方式累加，并通过门的调控进行精细的管理。
在这里插入图片描述

三、深度学习展望

1、生成对抗网络GAN

生成对抗网络（GANs, generative adversarial networks）是由Ian Goodfellow等人在2014年的Generative Adversarial Networks一文中提出。模型通过框架中（至少）两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）的互相博弈学习产生相当好的输出。原始GAN 理论中，并不要求G 和D 都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为G和D。一个优秀的GAN应用需要有良好的训练方法，否则可能由于神经网络模型的自由性而导致输出不理想。
生成对抗网络的整体结构如下。
在这里插入图片描述

生成对抗网络(GAN)的初始原理十分容易理解，即构造两个神经网络，一
个生成器，一个鉴别器，二者互相竞争训练，最后达到一种平衡(纳什平
衡)。GAN 启发自博弈论中的二人零和博弈（two-player game），GAN 模型中的两位博弈方分别由生成式模型（generativemodel，G）和判别式模型（discriminative model，D）充当。
⚫ 生成模型G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯
分布等）的噪声z 生成一个类似真实训练数据的样本，追求效果是越
像真实样本越好。
⚫ 判别模型D 是一个二分类器，估计一个样本来自于训练数据（而非生
成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，
否则，D 输出小概率。

2、transformer

Transformer是一种革命性的神经网络架构，由Vaswani等人在2017年的论文《Attention is All You Need》中首次提出，它主要应用于自然语言处理（NLP）领域，并已逐渐扩展到其他序列数据处理任务中。Transformer的核心创新在于摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）在序列处理中的使用，完全基于自注意力（self-attention）机制来处理输入序列中的元素，从而实现了并行化计算，大幅提高了训练速度和模型性能。

Transformer模型的基本结构分为两大部分：编码器（Encoder）和解码器（Decoder），两者都由多个相同的层堆叠而成，每层包含多头自注意力（Multi-Head Attention）、层归一化（Layer Normalization）、全连接前馈网络（Position-wise Feed-Forward Networks）等组件。

编码器负责读取输入序列并将其转化为一系列高维的向量表示，这些表示包含了输入序列的丰富上下文信息。每个编码器层有两个子层：一个是多头自注意力层，它允许模型查看输入序列的所有部分并相应地分配注意力；另一个是位置全连接前馈网络，用于进一步处理和变换这些表示。

解码器同样由多层构成，除了包含与编码器类似的自注意力层外，还增加了一个编码器-解码器注意力层，这使得解码器能够在生成输出序列时，基于输入序列的上下文信息来调整其注意力。解码器的每一层也有两层自注意力机制，一层关注于自身的输出（自注意力），另一层则关注编码器的输出（编码器-解码器注意力）。

Transformer通过加入位置编码（Positional Encoding）来解决由于摒弃了循环结构而可能导致的无法捕捉序列顺序信息的问题。位置编码是一种向输入序列的词嵌入中添加固定模式的偏差，确保模型能够区分不同位置的词汇。

Transformer的成功在于其高效并行化的特性以及强大的注意力机制，它不仅在机器翻译任务上取得了突破性进展，还成为了后续众多先进NLP模型（如BERT、GPT系列）的基础架构，广泛应用于文本生成、问答系统、情感分析等多种场景。

3、展望

深度学习的发展，尤其是大语言模型、语言-图像模型的发展，让人们看到了AI更多的可能性。在应用方面，常常围绕四个模式展开，分别是图像、视频、点云和时间序列；在特定任务方面，包含九项特定任务，包括工业图像异常检测/定位、点云异常检测、医学图像异常检测/定位，逻辑异常检测，行人异常检测、交通异常检测和时间序列异常检测。