神经网络与深度学习(第四次笔记)

语义分割与FCN

语义分割是一种图像处理方法,它的目的是找到同一画面中的不同类型目标区域,并对每个像素进行分类,得到对应的标签。语义分割的基本思想是使用全卷积网络(FCN)来提取特征,并通过反卷积和跳级结构来上采样得到原尺寸的分割图像。语义分割的评价指标有全局精度、平均精度和mIOU等。语义分割的标注工具有Labelme和EISeg等。

FCN网络结构

在这里插入图片描述
全卷积网络(FCN)的结构可以分为三种类型:FCN-32s,FCN-16s和FCN-8s。这三种类型的区别在于反卷积部分的跳级结构,即在上采样的过程中,是否使用卷积部分的中间层的特征图进行求和运算。FCN-32s是最简单的一种,它直接将卷积部分的最后一层特征图上采样32倍得到分割图像;FCN-16s则是在上采样16倍后,将卷积部分的第四个池化层的特征图裁剪后与之相加,再上采样16倍得到分割图像;FCN-8s则是在上采样8倍后,将卷积部分的第三个池化层的特征图裁剪后与之相加,再上采样8倍得到分割图像。跳级结构可以增加分割图像的细节和精度。

SAM

最近新出了一个模型SAM,图像分割中的SAM是一种基于自注意力机制的深度学习模型,它可以根据文本提示或用户点击来分割图像中的任意对象。图像分割是一种计算机视觉的任务,它涉及将图像划分为多个区域,每个区域代表一个特定的对象或感兴趣的区域。SAM模型由Meta AI研究团队开发,并在一个包含11百万张图片和11亿个分割掩码的数据集上进行了训练,具有强大的零样本迁移能力,可以应对多种分割任务。
链接: segment-anything

循环神经网络与NLP

在这部分我学习了循环神经网络(RNN)和长短期记忆网络(LSTM)在自然语言处理(NLP)中的应用。包括文本处理与词嵌入的基础知识,包括特征编码、文本切分、词频统计、独热编码等。

RNN模型是一种递归神经网络,它可以处理序列数据,如文本、语音、视频等。RNN模型的特点是它有一个隐藏状态,用于存储之前的信息,并将其传递给下一个时间步。RNN模型的结构可以分为三个部分:输入层、隐藏层和输出层。输入层接收序列数据的每个元素,如单词或字符;隐藏层根据输入和上一个时间步的隐藏状态,计算当前时间步的隐藏状态;输出层根据当前时间步的隐藏状态,生成输出,如预测或分类。RNN模型可以用于多种任务,如语言模型、情感分析、机器翻译等。

RNN模型

RNN模型是一种递归神经网络,它可以处理序列数据,如文本、语音、视频等。RNN模型的特点是它有一个隐藏状态,用于存储之前的信息,并将其传递给下一个时间步。RNN模型的结构可以分为三个部分:输入层、隐藏层和输出层。输入层接收序列数据的每个元素,如单词或字符;隐藏层根据输入和上一个时间步的隐藏状态,计算当前时间步的隐藏状态;输出层根据当前时间步的隐藏状态,生成输出,如预测或分类。RNN模型可以用于多种任务,如语言模型、情感分析、机器翻译等。
在这里插入图片描述
RNN存在的问题主要有两个:

  • 遗忘问题,即随着输入序列的增加,RNN会忘记之前的重要信息,导致模型性能下降。这是因为RNN只有一个隐藏状态,用于存储和传递所有的信息,而这个隐藏状态的容量是有限的,不能无限地累积信息。
  • 梯度消失或爆炸问题,即在反向传播过程中,梯度会随着时间步的增加而指数级地衰减或增长,导致模型难以训练。这是因为RNN的隐藏层之间的权重是共享的,而这些权重在反向传播时会被多次相乘,从而导致梯度的变化。

LSTM模型

LSTM模型是一种长短期记忆网络,它是RNN模型的一种改进,可以解决RNN模型存在的遗忘问题。LSTM模型的特点是它有两个隐藏状态,分别是细胞状态和隐藏状态。细胞状态可以存储长期的信息,而隐藏状态可以存储短期的信息。LSTM模型的结构可以分为四个部分:输入层、遗忘门、输入门、输出门和输出层。输入层接收序列数据的每个元素,如单词或字符;遗忘门根据输入和上一个时间步的隐藏状态,选择性地删除细胞状态中的一些信息;输入门根据输入和上一个时间步的隐藏状态,选择性地添加新的信息到细胞状态中;输出门根据输入和当前时间步的细胞状态,选择性地输出细胞状态中的一些信息到隐藏状态中;输出层根据当前时间步的隐藏状态,生成输出,如预测或分类。
在这里插入图片描述

RNN和LSTM的区别主要在于LSTM引入了三个门结构,分别是遗忘门、输入门和输出门,用于控制信息的流动和记忆。RNN只有一个隐藏状态,而LSTM有两个隐藏状态,分别是细胞状态和隐藏状态。细胞状态可以存储长期的信息,而隐藏状态可以存储短期的信息。LSTM通过遗忘门来选择性地删除细胞状态中的一些信息,通过输入门来选择性地添加新的信息到细胞状态中,通过输出门来选择性地输出细胞状态中的一些信息到隐藏状态中。这样,LSTM可以有效地解决RNN存在的遗忘问题,即随着输入序列的增加,RNN会忘记之前的重要信息。LSTM可以更好地捕捉长期的依赖关系,提高模型的性能和泛化能力。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值