1、多分支特征:
指的是网络结构中有多个分支(或路径),这些分支从同一层或不同层中分出,用于处理不同的特征或者任务,最终在某一层进行合并。多分支结构通常用于提高模型的表达能力,或适应不同类型的输入数据或任务要求。
主要特点
-
并行处理:多分支结构允许网络在不同分支中并行处理不同特征,增强模型的灵活性。每个分支可以处理不同尺度、不同抽象层次的特征。
-
特征提取多样性:通过不同分支网络,模型可以从同一输入中提取出不同种类的特征。例如,一个分支可能专注于局部特征,另一个分支处理全局特征。
-
任务特异性:在一些多任务学习中,多个分支可以分别用于处理不同任务。例如,一个分支用于分类任务,另一个分支用于回归任务,最后通过共享信息提升整体性能
常见的多分支网络结构
-
残差网络(ResNet):残差网络引入了跳跃连接(Skip Connections),某些层的输出直接跳过几层传递到后面的层,形成一个分支结构。这样可以有效缓解深层网络中的梯度消失问题。
-
Inception 网络:Inception网络(如 GoogLeNet)是典型的多分支结构。它在同一层使用多个分支,并在每个分支中应用不同尺寸的卷积核和池化操作,从而提取不同尺度的特征。最后,所有分支的输出在同一层合并,以形成丰富的特征表示。
-
注意力机制(Attention Mechanism):一些网络通过多分支结构实现注意力机制。例如,某个分支可以用于计算注意力权重,另一个分支用于特征提取,最终利用注意力权重调整提取到的特征。
-
双流网络(Two-Stream Network):在视频处理任务中,双流网络是一个常见的多分支结构。一个分支处理空间信息(图像帧),另一个分支处理时间信息(帧之间的运动),两者结合可以更好地捕捉视频中的动态特征。
2、ImageNet数据集
ImageNet数据集是一个大规模的视觉数据集,专门用于图像识别和分类任务。它是计算机视觉和深度学习领域的重要基准数据集,广泛用于训练和评估图像分类、物体检测和其他视觉任务的模型
ImageNet数据集的关键特点:
-
数据集规模:
-
ImageNet包含大约1400万张标注图片,每张图片都被分配了一个或多个类别标签。
-
数据集中有1000个类别("ImageNet-1k"),每个类别代表不同的物体或场景,如动物、植物、车辆、家居物品等。
-
-
类别层次结构:
-
ImageNet的类别基于WordNet,这是一个语言数据库,使用层次化结构对词汇进行分类。ImageNet将每个类别与WordNet中的一个词汇(或一组同义词)关联,使得类别有一定的语义结构。
-
-
任务类型:
-
分类任务:这是最经典的任务,要求模型将图片正确分类到1000个类别中的一个。
-
物体检测任务:扩展了分类任务,要求模型不仅识别图片中的物体类别,还要定位它们的位置(使用边界框标注)。
-
细粒度分类:区分视觉上非常相似的类别,例如区分不同品种的狗、鸟或花等。
-
-
数据来源:
-
图片主要来自互联网,如Flickr等,经过了手工筛选和标注,以确保标注的准确性和图片的质量。
-
-
<