从信息提取的角度思考,图片为什么要输入——>网络模型(卷积神经网络(ResNet系列)对比 ViT (Vision Transformer))
1. 卷积核的工作原理:
特征提取:卷积核通过在输入图像(或特征图)上滑动来提取特征。每个卷积核负责从输入数据中提取一种特定类型的特征,例如边缘、颜色变化、纹理等。
权重和偏置:每个卷积核都有一组权重和一个偏置项,这些参数在训练过程中通过反向传播算法进行学习和更新。卷积操作本质上是对卷积核权重和输入图像片段(卷积核覆盖的区域)的元素进行 加权求和,然后 加上偏置项。
激活函数:卷积操作的输出通常会通过一个非线性激活函数(如ReLU)进行处理,以引入非线性特性,这对于学习复杂的特征和模式是必要的。
多个卷积核:CNN层通常包含多个不同的卷积核,每个卷积核都可以捕捉输入数据的不同特征。这些不同的卷积核在相同的输入数据上进行操作,但由于它们的权重不同,因此可以提取不同的信息。
2. ViT 线性映射
ViT的架构主要基于Transformer模型,这是一种主要依靠自注意力机制(self