tf从0到tf1.x,现在已是tf2.x了,目标检测训练也得跟上新时代。
object detection api 配置基本差不多,数据集仍为VOC2007格式。
根据要求把文件放到各自目录后。先把数据集转成训练需要的train.record和val.record格式。
create_pascal_tf_record.py
开始是ubuntu20.04系统,python3.8,一堆错误。改为anaconda环境。
arroplan_val.txt?? 什么原因??No such file or directory.
查看源文件,怎么有aeroplane的前缀?是bug吗?注释。
下载ssd_mobilenet_v2_fpnlite_640*640_coco17_tpu-8.tar.gz预训练模型。
修改pileline.config文件。
修改num_classes类别数。
修改文件路径。模型前缀为ckpt-0
修改batch_size。原tpu为128,1060tx改为12跑个1000步就会杀死进程,改为8后马马虎虎。
开始训练。好长时间没反应,以为进程崩了,过了几分钟,有loss出来,原来是100step才显示一次信息。
生成ckpt-* meta index 文件,export tf2导出saved_model文件。
events过程文件太大了,跑了10000step,有十几G,机子吃不消。