神经网络与深度学习（第四次笔记）

最新推荐文章于 2024-08-31 23:09:33 发布

潛か

最新推荐文章于 2024-08-31 23:09:33 发布

阅读量78

点赞数

文章标签：深度学习神经网络笔记

本文链接：https://blog.csdn.net/paoruochui/article/details/130181381

版权

语义分割与FCN

语义分割是一种图像处理方法，它的目的是找到同一画面中的不同类型目标区域，并对每个像素进行分类，得到对应的标签。语义分割的基本思想是使用全卷积网络（FCN）来提取特征，并通过反卷积和跳级结构来上采样得到原尺寸的分割图像。语义分割的评价指标有全局精度、平均精度和mIOU等。语义分割的标注工具有Labelme和EISeg等。

FCN网络结构

在这里插入图片描述
全卷积网络（FCN）的结构可以分为三种类型：FCN-32s，FCN-16s和FCN-8s。这三种类型的区别在于反卷积部分的跳级结构，即在上采样的过程中，是否使用卷积部分的中间层的特征图进行求和运算。FCN-32s是最简单的一种，它直接将卷积部分的最后一层特征图上采样32倍得到分割图像；FCN-16s则是在上采样16倍后，将卷积部分的第四个池化层的特征图裁剪后与之相加，再上采样16倍得到分割图像；FCN-8s则是在上采样8倍后，将卷积部分的第三个池化层的特征图裁剪后与之相加，再上采样8倍得到分割图像。跳级结构可以增加分割图像的细节和精度。

SAM

最近新出了一个模型SAM，图像分割中的SAM是一种基于自注意力机制的深度学习模型，它可以根据文本提示或用户点击来分割图像中的任意对象。图像分割是一种计算机视觉的任务，它涉及将图像划分为多个区域，每个区域代表一个特定的对象或感兴趣的区域。SAM模型由Meta AI研究团队开发，并在一个包含11百万张图片和11亿个分割掩码的数据集上进行了训练，具有强大的零样本迁移能力，可以应对多种分割任务。
链接: segment-anything

循环神经网络与NLP

在这部分我学习了循环神经网络（RNN）和长短期记忆网络（LSTM）在自然语言处理（NLP）中的应用。包括文本处理与词嵌入的基础知识，包括特征编码、文本切分、词频统计、独热编码等。

RNN模型是一种递归神经网络，它可以处理序列数据，如文本、语音、视频等。RNN模型的特点是它有一个隐藏状态，用于存储之前的信息，并将其传递给下一个时间步。RNN模型的结构可以分为三个部分：输入层、隐藏层和输出层。输入层接收序列数据的每个元素，如单词或字符；隐藏层根据输入和上一个时间步的隐藏状态，计算当前时间步的隐藏状态；输出层根据当前时间步的隐藏状态，生成输出，如预测或分类。RNN模型可以用于多种任务，如语言模型、情感分析、机器翻译等。

RNN模型

遗忘问题，即随着输入序列的增加，RNN会忘记之前的重要信息，导致模型性能下降。这是因为RNN只有一个隐藏状态，用于存储和传递所有的信息，而这个隐藏状态的容量是有限的，不能无限地累积信息。
梯度消失或爆炸问题，即在反向传播过程中，梯度会随着时间步的增加而指数级地衰减或增长，导致模型难以训练。这是因为RNN的隐藏层之间的权重是共享的，而这些权重在反向传播时会被多次相乘，从而导致梯度的变化。

LSTM模型

LSTM模型是一种长短期记忆网络，它是RNN模型的一种改进，可以解决RNN模型存在的遗忘问题。LSTM模型的特点是它有两个隐藏状态，分别是细胞状态和隐藏状态。细胞状态可以存储长期的信息，而隐藏状态可以存储短期的信息。LSTM模型的结构可以分为四个部分：输入层、遗忘门、输入门、输出门和输出层。输入层接收序列数据的每个元素，如单词或字符；遗忘门根据输入和上一个时间步的隐藏状态，选择性地删除细胞状态中的一些信息；输入门根据输入和上一个时间步的隐藏状态，选择性地添加新的信息到细胞状态中；输出门根据输入和当前时间步的细胞状态，选择性地输出细胞状态中的一些信息到隐藏状态中；输出层根据当前时间步的隐藏状态，生成输出，如预测或分类。
在这里插入图片描述

RNN和LSTM的区别主要在于LSTM引入了三个门结构，分别是遗忘门、输入门和输出门，用于控制信息的流动和记忆。RNN只有一个隐藏状态，而LSTM有两个隐藏状态，分别是细胞状态和隐藏状态。细胞状态可以存储长期的信息，而隐藏状态可以存储短期的信息。LSTM通过遗忘门来选择性地删除细胞状态中的一些信息，通过输入门来选择性地添加新的信息到细胞状态中，通过输出门来选择性地输出细胞状态中的一些信息到隐藏状态中。这样，LSTM可以有效地解决RNN存在的遗忘问题，即随着输入序列的增加，RNN会忘记之前的重要信息。LSTM可以更好地捕捉长期的依赖关系，提高模型的性能和泛化能力。
在这里插入图片描述

潛か

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
神经网络与深度学习（第四次笔记）

语义分割是一种图像处理方法，它的目的是找到同一画面中的不同类型目标区域，并对每个像素进行分类，得到对应的标签。语义分割的基本思想是使用全卷积网络（FCN）来提取特征，并通过反卷积和跳级结构来上采样得到原尺寸的分割图像。语义分割的评价指标有全局精度、平均精度和mIOU等。语义分割的标注工具有Labelme和EISeg等。
复制链接

扫一扫