xml标签文件含有非法字符的一种解决思路

勇敢牛牛@

已于 2022-08-10 18:47:25 修改

阅读量2.7k

点赞数 4

分类专栏：图像处理专栏文章标签： pytorch python 深度学习

于 2022-04-02 10:41:24 首次发布

本文链接：https://blog.csdn.net/qq_46497842/article/details/123914549

版权

图像处理专栏专栏收录该内容

11 篇文章

订阅专栏

在做目标检测任务时，自己使用labelimg工具给图片打标签，难免会出现路径下含有中文，在经过格式转换后就会出现非法的乱码格式，如下图所示：
在这里插入图片描述
左图是原图，由于之前的一篇文章，我对图片和标签整体进行压缩等比例压缩数据集和标签文件的标注信息，压缩后的标签文件就出现了右图乱码的格式，当然这种格式在读取的时候，如果程序设置不当，肯定是会出错的，大部分情况下一定出错。
由于我是做目标检测任务，代码是"博导：Bubbliiiing"的代码。再利用 $g e t ma p . p y$ 文件获取每个类的精度时，出现标签文件含有非法字符而报错的问题。定位到报错的代码一行：

root = ET.parse(os.path.join(VOCdevkit_path, "VOC2007/Annotations/"+image_id+".xml")).getroot()

大概就是 $ET . p a rse ()$ 函数在解析 $x m l$ 文件时，遇到非法字符报错。将以上代码进行修改，如下所示：

in_file = open(os.path.join(VOCdevkit_path, "VOC2007/Annotations/"+image_id+".xml"),encoding='gbk')
tree = ET.parse(in_file)
root = tree.getroot()

该方法作为遇到 $x m l$ 文件中含有非法字符解决方式的一种，但是具有泛化性。直接使用 $ET . p a rse ()$ 函数肯定是不行的，如果使用 $o p e n ()$ 函数打开文件，再利用 $ET . p a rse ()$ 函数获取，一定是可以的。
代码千千万，只作为解决方法的一种，如果遇到类似的问题，可作为参考~