注明:
在今后的很长的一段时间,都将和这块板子打交道;所以这是一个长篇的记录文;不定时更新。
今天主要记录下在进行模型进行量化过程中的一些问题和解决办法
问题:
在使用coco数据集中的图片进行量化的过程中,出现直接kill
解决办法:
将图片数据减少、将模型换成tiny版
问题:
出现显示指定的txt文件中没有对应的图片数据
解决办法:
开始检查图片数据,一开始发现是PILimage转Cv读取的问题,后面发现还是有问题,报了个(416,416,3)不能转成(416,416)的错,开始怀疑是coco数据集的问题,发现COCO数据集中有些图片其实是灰度图,在开头两三千的训练图片中大概有三十张是灰度图,一一找出,然后手动剔除,真实浪费时间。。。下次看看有没有什么简单的代码自动剔除一下
问题
按照默认的设置跑batch=100,跑二十个迭代,发现直接提示
Allocation of XXXXXXXX exceeds 10% of system memory
解决办法:
改成使用batch=10,依旧慢,但是没有出现电脑卡死的现象
问题:
报类似这样的错Not using XLA:CPU for cluster because envvar TF_XLA_FLAGS=--tf_xla_cpu_globa
解决办法:在环境变量中加入
export TF_XLA_FLAGS=--tf_xla_cpu_global_jit
为解决cpu跑的慢的问题,尝试更换gpu版本的tensorflow1.14.0,发现它只兼容cuda10.0版本,于是只好把之前安装的10.1版本卸载了;重新安装一次cuda