1.通过load_network(cfgfile, weightfile, clear);函数来加载权重和解释整个网络
2.网络构建好后开始通过get_current_batch(net);函数读取数据。
3.读取好数据后开始执行,整个执行函数如下,整个过程也就是向前,向后,更新权重:
float train_network_datum(network *net)
{
*net->seen += net->batch;
net->train = 1;
forward_network(net);
backward_network(net);
float error = *net->cost;
if(((*net->seen)/net->batch)%net->subdivisions == 0) update_network(net);//训练完成一个批次,也就是一个大batch
return error;
}
看看向前传递是怎样传递的,也就是依次执行各个层,置梯度为0,执行该层的向前传递函数:
这里最重要的一点是 net.input = l.output;通过这句话将整个网络向前传递链接了起来。
void forward_network(network *netp)
{
#ifdef GPU
if(netp->gpu_index >= 0){
forward_network_gpu(netp);
return;
}
#endif
network net = *netp;//这里进行结构体拷贝,防止对整个网络参数进行更改
int i;
for(i = 0; i < net.n; ++i){
net.index = i;
layer l = net.layers[i];//取出第i层网络
if(l.delta){
fill_cpu(l.outputs * l.batch, 0, l.delta, 1);//将本层输出全部置0
}
l.forward(l, net);
net.input = l.output;
if(l.truth) {
net.truth = l.output;
}
}
calc_network_cost(netp);//计算总损失
}
看看梯度回传是怎么实现的,我们知道在级联计算本层梯度的时候,需要知道前面一层网络的激活函数的输出和后面一层网络回传的梯度:
void backward_network(network *netp)
{
#ifdef GPU
if(netp->gpu_index >= 0){
backward_network_gpu(netp);
return;
}
#endif
network net = *netp;
int i;
network orig = net;
for(i = net.n-1; i >= 0; --i){
layer l = net.layers[i];
if(l.stopbackward) break;
if(i == 0){
net = orig;
}else{
layer prev = net.layers[i-1];
net.input = prev.output;
net.delta = prev.delta;
}
net.index = i;
l.backward(l, net);
}
}
最后看看是怎样进行权重更新的,也就是设置好整个网络的学习率,权重更新方式,开始依次执行每个层的权直更新函数:
void update_network(network *netp)
{
#ifdef GPU
if(netp->gpu_index >= 0){
update_network_gpu(netp);
return;
}
#endif
network net = *netp;
int i;
update_args a = {0};
a.batch = net.batch*net.subdivisions;
a.learning_rate = get_current_rate(netp);
a.momentum = net.momentum;
a.decay = net.decay;
a.adam = net.adam;
a.B1 = net.B1;
a.B2 = net.B2;
a.eps = net.eps;
++*net.t;
a.t = *net.t;
for(i = 0; i < net.n; ++i){
layer l = net.layers[i];
if(l.update){
l.update(l, a);
}
}
}