GLIP配置文件

MODEL 配置
META_ARCHITECTURE: "GeneralizedVLRCNN",这指定了模型的高级架构,即一个结合了视觉和语言理解的通用框架。
WEIGHT: 模型初始化权重的路径,使用的是预训练的Swin Transformer模型。
RPN_ONLY: True表示模型仅使用区域提议网络(RPN),不执行最终的框预测。
BOX_ON: False,进一步确认模型不进行框预测。
RPN_ARCHITECTURE: "VLDYHEAD",指定了RPN的架构,这可能是一个结合了视觉和语言特征的特殊设计。
BACKBONE 配置
CONV_BODY: "SWINT-FPN-RETINANET",视觉主干网络使用Swin Transformer,结合FPN(Feature Pyramid Network)。
OUT_CHANNELS: 256,主干网络输出的通道数。
FREEZE_CONV_BODY_AT: -1,意味着整个卷积体不会被冻结,所有层都会参与训练。
LANGUAGE_BACKBONE 配置
FREEZE: True,语言主干网络被冻结,不参与训练。
MODEL_TYPE: "bert-base-uncased",语言主干网络使用的是BERT基础版本。
MASK_SPECIAL: False,特殊标记是否用于掩码操作。
RPN 配置
USE_FPN: True,使用FPN进行特征金字塔的构建。
ANCHOR_SIZES: 锚框的大小集合,用于不同层级的特征图。
ANCHOR_STRIDE: 锚框的步长集合,对应于不同层级的特征图。
ASPECT_RATIOS: 锚框的宽高比集合。
SCALES_PER_OCTAVE: 设为1,意味着不使用多尺度锚框。
DYHEAD 配置
CHANNELS: 256,dyhead tower中每个层的通道数。
NUM_CONVS: 6,dyhead tower中卷积层的数量。
USE_GN: True,使用组归一化(Group Normalization)。
USE_DYRELU: True,使用动态ReLU激活函数。
USE_DFCONV: True,使用变形卷积(Deformable Convolution)。
USE_DYFUSE: True,使用动态融合机制。
TOPK: 9,从每个层级选择候选正样本的数量。
SCORE_AGG: "MEAN",分数聚合的方式,这里使用平均值。
LOG_SCALE: 0.0,对数尺度的初始值。
FUSE_CONFIG 配置
EARLY_FUSE_ON: True,早期融合是否开启。
TYPE: "MHA-B",融合类型,这里使用双向多头注意力。
USE_CLASSIFICATION_LOSS, USE_TOKEN_LOSS, USE_CONTRASTIVE_ALIGN_LOSS: 分别控制是否使用分类损失、TOKEN损失和对比对齐损失。
CONTRASTIVE_HIDDEN_DIM: 64,对比损失中隐藏层的维度。
USE_DOT_PRODUCT_TOKEN_LOSS: True,是否使用点积TOKEN损失。
USE_FUSED_FEATURES_DOT_PRODUCT: True,是否使用融合特征的点积。
USE_LAYER_SCALE: True,是否使用层尺度。
**CLAMP_MIN_FOR_UNDERFLOW, CLAMP_MAX_FOR_OVERFLOW, CLAMP_BERTATTN_MIN_FOR_UNDERFLOW, CLAMP_BERTATTN_MAX_FOR_OVERFLOW, CLAMP_DOT_PRODUCT: True,这些参数用于数值稳定性的控制,防止下溢和上溢。
TEST 配置
DURING_TRAINING: False,测试不在训练过程中进行。
IMS_PER_BATCH: 16,测试时每批处理的图像数量。
DATASETS 配置
TRAIN: 使用coco_train_2017作为训练数据集。
TEST: 使用coco_2017_val作为测试数据集。
DISABLE_SHUFFLE: False,训练数据集会被打乱。
ADD_DET_PROMPT: False,不添加检测提示。
RANDOM_SAMPLE_NEG: 85,每批训练数据中负样本的随机采样数量。
CONTROL_PROB: (0.0, 0.0, 0.5, 0.0),控制概率,可能用于数据增强或模型训练的某些策略。
INPUT 配置
PIXEL_MEAN 和 PIXEL_STD: 图像像素的均值和标准差,用于图像的预处理。
MIN_SIZE_TRAIN 和 MAX_SIZE_TRAIN: 训练时图像的最小和最大尺寸。
MIN_SIZE_TEST 和 MAX_SIZE_TEST: 测试时图像的最小和最大尺寸。
AUGMENT 配置
MULT_MIN_SIZE_TRAIN: 多尺度训练的最小尺寸集合,用于数据增强。
DATALOADER 配置
SIZE_DIVISIBILITY: 32,确保输入图像尺寸满足的可除性,以优化内存使用。
NUM_WORKERS: 0,数据加载器使用的线程数量,这里设为0,意味着数据加载由主进程处理。
SOLVER 配置
OPTIMIZER: "ADAMW",优化器的选择,这里使用AdamW。
BASE_LR 和 LANG_LR: 基础学习率和语言学习率。
WEIGHT_DECAY: 权重衰减。
STEPS: 学习率衰减的时间点。
MAX_EPOCH: 最大训练轮数。
IMS_PER_BATCH: 训练时每批处理的图像数量。
WARMUP_ITERS 和 WARMUP_FACTOR: 预热迭代次数和预热因子,用于学习率的预热过程。
USE_AMP: True,使用自动混合精度(Automatic Mixed Precision)训练,以加速训练并减少内存消耗。
MODEL_EMA: 0.999,模型指数移动平均(Exponential Moving Average)的衰减率。
FIND_UNUSED_PARAMETERS: False,是否寻找未使用的参数,通常在分布式训练中使用。
CHECKPOINT_PERIOD: 1500,保存检查点的周期。
TRAIN_DATA_SHOW_NUM: 300,显示训练数据的数量。
CLIP_GRADIENTS 配置
ENABLED: True,启用梯度裁剪。
CLIP_TYPE: "full_model",裁剪类型,这里裁剪整个模型的梯度。
CLIP_VALUE: 1.0,裁剪阈值。
NORM_TYPE: 2.0,裁剪时使用的范数类型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值