网络结构
- 输入:107×107大小的RGB目标图片
- 网络层:包括三个卷积模块(conv1,conv2,conv3)和三个全连接模块(fc4,fc5,fc6)。其中,fc6在训练时具有K个分支,每个K分支包含一个具有softmax交叉熵损失的二分类层, 它负责区分每个域(训练视频)中的目标和背景。
- 在跟踪时,fc6会被替换成单个分支,以用于新的测试序列。
- 输出:一个分数,用来区分目标和背景,得分越高,是目标的概率越大。
训练部分
一、mdnet_prepare_model
1. 读取VGG的conv1、2、3,得到layers。layer中有11个结构体,分别是conv1,relu1,norm1,pool1;conv2,relu2,norm2,pool2;conv3,relu3,conv4;
2. 遍历layers,为不同种类的层添加属性和值,去掉conv4。
3. 自定义了fc4模块(包含fc4,relu4,dropout4)、fc5模块(包含fc5,relu5,dropout5),fc6模块(包含fc6,softmax)。
二、mdnet_pretrain
在VOT2013,2014,2015上训练,用OTB微调
1.设置要训练的序列集
2.初始化:
网络结构模型mdnet_init.mat;
输出的训练结果模型mdnet_vot-otb_new.mat;
ROI(采样)数据库roidb.mat;
3.初始化重要参数:
opts.train.batch_frames= 8;%每个batch(视频序列?)随机选8帧;