用公司的服务器,python的所有包都打好了。
网址:https://github.com/davidsandberg/facenet/wiki/Train-a-classifier-on-own-images
开始一步一步,都很顺利。
该下的都下了。
现在就在
Train a classifier on LFW
这一步出了问题。tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM when allocating tensor of shape [1,1,896,256] and type float之前也报错:InternalError: Dst tensor is notinitialized,于是我export CUDA_VISIBLE_DEVICES=1了一下,打开了cuda。
那么现在是什么问题呢,网上搜了很多相关东西,发现可能是资源耗尽,垃圾服务器,那就试试把批处理调小一点。遥想当年用cpu版本的caffe训练人脸数据集,只开了个batch size64就会卡的不行不行。
看来是的,把batch size调小了10倍就行了。