预处理后的训练:
Pysot训练自己的数据集_Vesper0412的博客-CSDN博客
因为我用的数据集是视频数据集,所以比照着Pysot中使用的VID数据集进行预处理。
VID数据集的标签是以.xml格式存储的,具体如下:
<?xml version="1.0"?>
<annotation>
<folder>ILSVRC2015_VID_train_0000/ILSVRC2015_train_00000000</folder>
<filename>000000</filename>
<source>
<database>ILSVRC_2015</database>
</source>
<size>
<width>1280</width>
<height>720</height>
</size>
<object>
<trackid>0</trackid>
<name>n01674464</name>
<bndbox>
<xmax>1050</xmax>
<xmin>323</xmin>
<ymax>428</ymax>
<ymin>216</ymin>
</bndbox>
<occluded>1</occluded>
<generated>0</generated>
</object>
</annotation>
但我使用数据集的ground_truth是以 ‘.txt’ 形式存储的,所以代码调整一下。
1、par_crop.py
在par_crop阶段,只用到了.xml文件中的bndbox信息以及trackid信息。改进后将bndbox置换成自己的ground_truth就好,在.xml中,bndbox的存储顺序为[xmin,ymin,xmax,ymax],如果与自己的ground_truth不匹