深度学习笔记10.16

Tsuki0821

已于 2024-10-16 21:15:29 修改

阅读量1.3k

点赞数 8

文章标签：深度学习计算机视觉人工智能 pytorch

于 2024-10-15 21:23:22 首次发布

本文链接：https://blog.csdn.net/Tsuki0821/article/details/142964699

版权

指的是网络结构中有多个分支（或路径），这些分支从同一层或不同层中分出，用于处理不同的特征或者任务，最终在某一层进行合并。多分支结构通常用于提高模型的表达能力，或适应不同类型的输入数据或任务要求。

残差网络（ResNet）：残差网络引入了跳跃连接（Skip Connections），某些层的输出直接跳过几层传递到后面的层，形成一个分支结构。这样可以有效缓解深层网络中的梯度消失问题。
Inception 网络：Inception网络（如 GoogLeNet）是典型的多分支结构。它在同一层使用多个分支，并在每个分支中应用不同尺寸的卷积核和池化操作，从而提取不同尺度的特征。最后，所有分支的输出在同一层合并，以形成丰富的特征表示。
注意力机制（Attention Mechanism）：一些网络通过多分支结构实现注意力机制。例如，某个分支可以用于计算注意力权重，另一个分支用于特征提取，最终利用注意力权重调整提取到的特征。
双流网络（Two-Stream Network）：在视频处理任务中，双流网络是一个常见的多分支结构。一个分支处理空间信息（图像帧），另一个分支处理时间信息（帧之间的运动），两者结合可以更好地捕捉视频中的动态特征。

ImageNet数据集是一个大规模的视觉数据集，专门用于图像识别和分类任务。它是计算机视觉和深度学习领域的重要基准数据集，广泛用于训练和评估图像分类、物体检测和其他视觉任务的模型

数据集规模：
- ImageNet包含大约1400万张标注图片，每张图片都被分配了一个或多个类别标签。
- 数据集中有1000个类别（"ImageNet-1k"），每个类别代表不同的物体或场景，如动物、植物、车辆、家居物品等。
类别层次结构：
- ImageNet的类别基于WordNet，这是一个语言数据库，使用层次化结构对词汇进行分类。ImageNet将每个类别与WordNet中的一个词汇（或一组同义词）关联，使得类别有一定的语义结构。
任务类型：
- 分类任务：这是最经典的任务，要求模型将图片正确分类到1000个类别中的一个。
- 物体检测任务：扩展了分类任务，要求模型不仅识别图片中的物体类别，还要定位它们的位置（使用边界框标注）。
- 细粒度分类：区分视觉上非常相似的类别，例如区分不同品种的狗、鸟或花等。
数据来源：
- 图片主要来自互联网，如Flickr等，经过了手工筛选和标注，以确保标注的准确性和图片的质量。
<