GLIP配置文件

原创已于 2024-10-15 15:11:56 修改
· 340 阅读
3 ·
版权
文章标签：
#深度学习 #python #人工智能 #计算机视觉 #pytorch
于 2024-10-15 14:59:19 首次发布
MODEL 配置
META_ARCHITECTURE: "GeneralizedVLRCNN"，这指定了模型的高级架构，即一个结合了视觉和语言理解的通用框架。
WEIGHT: 模型初始化权重的路径，使用的是预训练的Swin Transformer模型。
RPN_ONLY: True表示模型仅使用区域提议网络（RPN），不执行最终的框预测。
BOX_ON: False，进一步确认模型不进行框预测。
RPN_ARCHITECTURE: "VLDYHEAD"，指定了RPN的架构，这可能是一个结合了视觉和语言特征的特殊设计。
BACKBONE 配置
CONV_BODY: "SWINT-FPN-RETINANET"，视觉主干网络使用Swin Transformer，结合FPN（Feature Pyramid Network）。
OUT_CHANNELS: 256，主干网络输出的通道数。
FREEZE_CONV_BODY_AT: -1，意味着整个卷积体不会被冻结，所有层都会参与训练。
LANGUAGE_BACKBONE 配置
FREEZE: True，语言主干网络被冻结，不参与训练。
MODEL_TYPE: "bert-base-uncased"，语言主干网络使用的是BERT基础版本。
MASK_SPECIAL: False，特殊标记是否用于掩码操作。
RPN 配置
USE_FPN: True，使用FPN进行特征金字塔的构建。
ANCHOR_SIZES: 锚框的大小集合，用于不同层级的特征图。
ANCHOR_STRIDE: 锚框的步长集合，对应于不同层级的特征图。
ASPECT_RATIOS: 锚框的宽高比集合。
SCALES_PER_OCTAVE: 设为1，意味着不使用多尺度锚框。
DYHEAD 配置
CHANNELS: 256，dyhead tower中每个层的通道数。
NUM_CONVS: 6，dyhead tower中卷积层的数量。
USE_GN: True，使用组归一化（Group Normalization）。
USE_DYRELU: True，使用动态ReLU激活函数。
USE_DFCONV: True，使用变形卷积（Deformable Convolution）。
USE_DYFUSE: True，使用动态融合机制。
TOPK: 9，从每个层级选择候选正样本的数量。
SCORE_AGG: "MEAN"，分数聚合的方式，这里使用平均值。
LOG_SCALE: 0.0，对数尺度的初始值。
FUSE_CONFIG 配置
EARLY_FUSE_ON: True，早期融合是否开启。
TYPE: "MHA-B"，融合类型，这里使用双向多头注意力。
USE_CLASSIFICATION_LOSS, USE_TOKEN_LOSS, USE_CONTRASTIVE_ALIGN_LOSS: 分别控制是否使用分类损失、TOKEN损失和对比对齐损失。
CONTRASTIVE_HIDDEN_DIM: 64，对比损失中隐藏层的维度。
USE_DOT_PRODUCT_TOKEN_LOSS: True，是否使用点积TOKEN损失。
USE_FUSED_FEATURES_DOT_PRODUCT: True，是否使用融合特征的点积。
USE_LAYER_SCALE: True，是否使用层尺度。
**CLAMP_MIN_FOR_UNDERFLOW, CLAMP_MAX_FOR_OVERFLOW, CLAMP_BERTATTN_MIN_FOR_UNDERFLOW, CLAMP_BERTATTN_MAX_FOR_OVERFLOW, CLAMP_DOT_PRODUCT: True，这些参数用于数值稳定性的控制，防止下溢和上溢。
TEST 配置
DURING_TRAINING: False，测试不在训练过程中进行。
IMS_PER_BATCH: 16，测试时每批处理的图像数量。
DATASETS 配置
TRAIN: 使用coco_train_2017作为训练数据集。
TEST: 使用coco_2017_val作为测试数据集。
DISABLE_SHUFFLE: False，训练数据集会被打乱。
ADD_DET_PROMPT: False，不添加检测提示。
RANDOM_SAMPLE_NEG: 85，每批训练数据中负样本的随机采样数量。
CONTROL_PROB: (0.0, 0.0, 0.5, 0.0)，控制概率，可能用于数据增强或模型训练的某些策略。
INPUT 配置
PIXEL_MEAN 和 PIXEL_STD: 图像像素的均值和标准差，用于图像的预处理。
MIN_SIZE_TRAIN 和 MAX_SIZE_TRAIN: 训练时图像的最小和最大尺寸。
MIN_SIZE_TEST 和 MAX_SIZE_TEST: 测试时图像的最小和最大尺寸。
AUGMENT 配置
MULT_MIN_SIZE_TRAIN: 多尺度训练的最小尺寸集合，用于数据增强。
DATALOADER 配置
SIZE_DIVISIBILITY: 32，确保输入图像尺寸满足的可除性，以优化内存使用。
NUM_WORKERS: 0，数据加载器使用的线程数量，这里设为0，意味着数据加载由主进程处理。
SOLVER 配置
OPTIMIZER: "ADAMW"，优化器的选择，这里使用AdamW。
BASE_LR 和 LANG_LR: 基础学习率和语言学习率。
WEIGHT_DECAY: 权重衰减。
STEPS: 学习率衰减的时间点。
MAX_EPOCH: 最大训练轮数。
IMS_PER_BATCH: 训练时每批处理的图像数量。
WARMUP_ITERS 和 WARMUP_FACTOR: 预热迭代次数和预热因子，用于学习率的预热过程。
USE_AMP: True，使用自动混合精度（Automatic Mixed Precision）训练，以加速训练并减少内存消耗。
MODEL_EMA: 0.999，模型指数移动平均（Exponential Moving Average）的衰减率。
FIND_UNUSED_PARAMETERS: False，是否寻找未使用的参数，通常在分布式训练中使用。
CHECKPOINT_PERIOD: 1500，保存检查点的周期。
TRAIN_DATA_SHOW_NUM: 300，显示训练数据的数量。
CLIP_GRADIENTS 配置
ENABLED: True，启用梯度裁剪。
CLIP_TYPE: "full_model"，裁剪类型，这里裁剪整个模型的梯度。
CLIP_VALUE: 1.0，裁剪阈值。
NORM_TYPE: 2.0，裁剪时使用的范数类型。