深度学习模型学习笔记

我作为新手的一些学习笔记

  • backbone:主干网络。主干网络大多时候指的是提取特征的网络,其作用就是提取图片中的信息,供后面的网络使用。这些网络经常使用的是Resnet VGG等,而不是我们自己设计的网络,因为这些网络已经证明了在分类等问题上的特征提取能力是很强的。在用这些网络作为backbone的时候,都是直接加载官方已经训练好的模型参数,后面接着我们自己的网络。

  • head:是获取网络输出内容的网络,利用之前提取的特征,head利用这些特征,做出预测。

  • neck:是放在backbone和head之间的,是为了更好的利用backbone提取的特征

  • bottleneck:瓶颈的意思,通常指的是网络输入的数据维度和输出的维度不同,输出的维度比输入的小了许多,就像脖子一样,变细了。经常设置的参数 bottle_num=256,指的是网络输出的数据的维度是256 ,可是输入进来的可能是1024维度的。

  • GAP:Global Average Pool全局平均池化,就是将某个通道的特征取平均值。

  • Embedding:深度学习方法都是利用使用线性和非线性转换对复杂的数据进行自动特征抽取,并将特征表示为“向量”(vector),这一过程一般也称为“嵌入”(embedding)

  • 用于预训练的任务被称为前置/代理任务(pretext task),用于微调的任务被称为下游任务(downstream task)

  • end to end:在论文中经常能遇到end to end这样的描述,那么到底什么是端到端呢?其实就是给了一个输入,我们就给出一个输出,不管其中的过程多么复杂,但只要给了一个输入,只会对应一个输出。End-To-End的方案,即输入一张图,输出最终想要的结果,算法细节和学习过程全部丢给了神经网络。

  • Warm up:热身。Warm up指的是用一个小的学习率先训练几个epoch,这是因为网络的参数是随机初始化的,一开始就采用较大的学习率容易数值不稳定。

  • 通常把训练的数据分为三个文件夹:训练集、测试集和验证集
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1bP60iFP-1687848820361)(E:/博士/多模态数据融合/学习笔记.assets/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2hlcm9jaGVuZXk=,size_16,color_FFFFFF,t_70.png)]

训练集(train set):用于训练模型以及确定参数。相当于老师教学生知识的过程。

验证集(validation set):用于确定网络结构以及调整模型的超参数。相当于月考等小测验,用于学生对学习的查漏补缺。

测试集(test set):用于检验模型的泛化能力。相当于大考,上战场一样,真正的去检验学生的学习效果。

  • 参数(parameters)是指由模型通过学习得到的变量,如权重w和偏置b。

  • 超参数(hyperparameters)是指根据经验进行设定的参数,如迭代次数,隐层的层数,每层神经元的个数,学习率等。

  • 在使用数据集训练模型之前,我们需要先将整个数据集分为训练集、验证集、测试集。训练集是用来训练模型的,通过尝试不同的方法和思路使用训练集来训练不同的模型,再通过验证集使用交叉验证来挑选最优的模型,通过不断的迭代来改善模型在验证集上的性能,最后再通过测试集来评估模型的性能。

  • 调参(hyperparameter tuning)是选择超参数的过程。

  • 梯度下降:

  • 梯度下降通过不断沿着反梯度方向更新参数求解

  • 小批量随机梯度下降是深度学习默认的求解算法

  • 两个重要的超参数是批量大小和学习率

  • 在深度学习中,num_epochs 常用于表示模型需要遍历整个训练数据集的次数。例如,如果训练数据集包含 1000 个样本,并且 num_epochs = 3,那么模型将使用这 1000 个样本训练 3 次,每个样本会被训练 3 次。

  • 分类和回归:

  • 回归估计一个连续值

  • 分类预测一个离散类别

  • Zero-shot recognition(零样本识别)是指模型在没有接触到某个类别样本的情况下,可以对该类别进行正确的分类或者识别。

  • 更难做到的是找到⼀组参数,这组参数能够在我们从未⻅过的数据上实现较低的损失,这⼀挑战被称为泛化(generalization)

  • batch_size是指每次训练时,输入到模型中的样本数。在深度学习中,由于训练数据集的数据量通常非常大,单次读取全部数据会导致内存不足,因此通常需要将数据集分成若干批次(batch)进行训练。

  • ⼤多数常⻅的深度学习模型训练过程:先读取数据,再定义模型和损失函数,然后使⽤优化算法训练模型

  • 在深度学习中,“opt.heads”通常是指模型的**输出头(output head)**或损失函数的分量。在目标检测和分割等任务中,模型的输出通常需要包含多个部分,例如边界框坐标、类别预测、掩模分割等,每个部分对应一个输出头。这些输出头可以共享前面的特征提取层,但在后面的卷积层中分别生成不同的输出。在训练时,每个输出头都需要使用相应的损失函数来计算梯度,并根据总体损失进行反向传播调整模型参数。因此,“opt.heads”通常用于指定所有输出头的名称、类型、权重等相关信息,以及构建相应的损失函数。

  • 训练数据集:训练模型参数
    验证数据集:选择模型超参数
    非大数据集上通常使用k-折交叉验证

  • 训练误差:模型在训练数据上的误差
    泛化误差:模型在新数据上的误差

  • 1:输入通道个数 等于 卷积核通道个数

2:卷积核个数 等于 输出通道个数

  • 输出通道数等于类别个数,高宽缩小的倍数看stride即可

  • 在模型训练中,损失函数通常被用来衡量模型预测结果与真实结果之间的差距。优化器的目标就是最小化损失函数,从而提高模型性能。

  • 高宽减半,通道数加倍

  • batchnorm层作用在:

     1.全连接层和卷积层输出上,激活函数前
    
     2.全连接层和卷积层输入上
    
     3.对全连接层,作用在特征维
    
     4.对于卷积层,作用在通道维
    
  • 批量归一化固定小批量中的均值和方差,然后学习出适合的偏移和缩放。可以加速收敛速度,但一般不改变模型精度,因此没必要跟丢弃法混合使用

  • 上采样通常是将低分辨率图像或特征图放大或恢复到高分辨率版本的技术,也称为放大或插值。上采样方法包括双线性插值、三次样条插值、反卷积等。上采样可用于许多任务,例如目标检测、分割和图像生成。上采样的效果取决于插值方法和放大倍数,可能会导致一些图像细节的失真和模糊。

  • 下采样是将高分辨率图像或特征图缩小到低分辨率版本的技术,也称为降采样或子采样。下采样通常用于编码器中,以减少模型大小和计算复杂度,同时保留重要的图像信息。下采样方法包括平均池化、最大池化等。下采样可能会导致信息丢失和空间分辨率降低,这可能会影响模型的性能。

  • 在深度学习时代,也有习惯,以全连接层为界限,将网络模型划分为特征提取模块分类模块以便更好的管理网络。

  • 硬关联是一种二元的、确定性的关联方式,而软关联是一种连续的、模糊的或概率性的关联方式。

  • 语义分割的任务是给场景中的每个位置(图像中的每个像素,或者点云中的每个点)指定一个类别标签,比如车辆,行人,道路,建筑物等。
    实例分割的任务类似于物体检测,但输出的不是物体框,而是每个点的类别标签和实例标签。
    全景分割任务则是语义分割和实例分割的结合。算法需要区分物体上的点(前景点)和非物体上的点(背景点),对于前景点还需要区分不同的实例。

  • 机器学习一般分为判别式模型生成式模型

  • 论文里面的latent, hidden ,feature,embedding,这些其实都是特征的意思,就是各种花里胡哨的用法而已。

  • pytorch可以给我们提供两种方式来切换训练和评估(推断)的模式,分别是: **model.train()**和 model.eval()
    一般用法是:在训练开始之前写上model.trian(),在测试时写上model.eval()。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值