这段时间试着把linux训练的caffe 模型在windows环境下运行起来,因为是自己改过的caffe代码,又只有VS2012,并没有下载官网的windows版本(支持VS2013及以上)。把相应的caffe源码拷过来,配置好各种库(hdf5/protobuf/boost/glog等),使用protoc.exe生成相应的caffe.pb.h和caffe.pb.cc,使用windows的库函数替换了一些函数,很快就编译成功了。
但在测试过程中,碰到以下问题:
错误信息来自:src/caffe/net.cpp中的CopyTrainedLayersFrom(const NetParameter& param)函数,表明加载模型出现了问题。
1、模型会不会与训练代码不匹配?
这个模型是用同样的caffe代码在linux环境下训练的,在linux下测试也没有问题,排除了模型不匹配的问题。
2、代码在windows和linux下有什么不同?
caffe.pb.h和caffe.pb.cc是在windows下重新生成的,差别只在这里了。怀疑protobuf的版本不一致导致的问题,都换为2.5.0版本后,问题仍然存在。
还有一些函数,open/close等,还有一些被注释了的变量,如果有问题,只可能出现在这里了。
* 解决方法 *:
在调试过程中,试着加载了几个不同的模型,发现函数中的CopyTrainedLayersFrom中param.layer_size() 都非常小,跟模型的网络层差距很大,问题的原因:模型没有加载完全,导致后续的解析错误。
参照windows下用caffe加载二进制模型(linux下训练)的问题,很快就找到了问题所在,src/util/io.cpp函数中:
int fd = open(filename, O_RDONLY);
open函数使用O_RDONLY在linux下加载二进制模型没有问题,但在windows下加载二进制模型需要加入O_BINARY选项:
int fd = open(filename, O_RDONLY|O_BINARY);
重新编译后,运行成功。
其实如果采用官方的caffe-windows是肯定不会出现上述问题的,无奈自己挖的坑含着泪也要填完。不过在这次纠错过程中,仔细看了之前从来没有注意的caffe源码中的一些细节,也算是因祸得福。
纠错也要有步骤、有逻辑地纠。刚开始眉毛胡子一把抓,比较耽误时间,就差重新下载新 caffe再重新训练模型了。文中参考的链接博客,解决问题时有理有据,值得学习。