tf-faster-rcnn敲重点：如何获取xml里面的内容并画出ground_truth的边框

最新推荐文章于 2023-02-23 21:32:24 发布

多一些不为什么的坚持

最新推荐文章于 2023-02-23 21:32:24 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习 Faster Rcnn

本文链接：https://blog.csdn.net/qq_33193309/article/details/97397633

版权

本文介绍了在TF-Faster-RCNN中如何处理中文命名引起的编码问题，并详细阐述了从XML文件中提取内容以绘制Ground Truth边界框的步骤，包括文件名修改、读取XML内容、计算IOU等关键操作，提供了相应的Python代码示例。

摘要由CSDN通过智能技术生成

折腾一天，问题遇到很多。首先是编码问题，因为在起初拿到这批数据的时候，命名都是中文命名，也没有进行修改(并不知道编码问题这么严重)

在测试demo.py的时候还好，没有出现编码问题，当我想要输出ground_truth的时候，必须要找到对应的xml文件，但文件命名都是中文，弄了一上午没解决编码问题，不管是decode还是encode还有什么unicode，通通都试了，也没解决，最后发现出现代码的问题应该是其他py上，但我没有权限去修改。。。。只能被迫把所有的xml，JPG，test里面的命名都换成数字

方法：

首先遍历test.txt里面每行的数据并修改为x，然后找到对应xml文件名，修改文件名为x.xml，同样的，JPG文件也修改为x.JPG。

附上代码：

其实就是简单的文件操作，修改个名字就行

# -*- coding: cp936 -*-
import os

##输入新的文件名

##获取当前文件夹的路径

f = open('/home/liubo/tf-faster-rcnn1/data/VOCdevkit/VOC2007/ImageSets/Main/test.txt')

lines = f.readlines()  # 整行读取
f.close()
i = 100000
for line in lines:
    i += 1
    rs = line.rstrip('\n')  # 去除原来每行后面的换行符，但有可能是\r或\r\n
    XML = '/home/liubo/tf-faster-rcnn1/data/VOCdevkit/VOC2007/Annotations'#XML文件的地址
    JPG = '/home/liubo/tf-faster-rcnn1/data/VOCdevkit/VOC2007/JPEGImages'#JPG文件的地址
    for xml in os.listdir(XML):
        if rs == xml[0:-4]:
            newname = str(i) + '.xml'
            os.rename(XML + '/' + xml, XML + '/' + newname)#修改名字，第一个参数是原来地址+名字，第二个参数为新地址+名字
    for jpg in os.listdir(JPG):#同理
        if rs == jpg[0:-4]:
            newname = str(i) + '.JPG'
            os.rename(JPG + '/' + jpg, JPG + '/' + newname)

如果木问题的话，几个文件的内容应该被修改了

解决了编码问题，现在可以进入到正题了！！

如何获取xml里面的内容并画出ground_truth的边框

首先是获取xml里面的内容

import xml.dom.minidom as xmldom
import os

'''
<annotation>
	<folder>均压环</folder>
	<filename>100005</filename>
	<source>
		<database>Unknown</database>
	</source>
	<size>
		<width>7360</width>
		<height>4912</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented>
	<object>
		<name>tilt</name>
		<pose>Unspecified</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>3042</xmin>
			<ymin>2739</ymin>
			<xmax>3468</xmax>
			<ymax>3003</ymax>
		</bndbox>
	</object>
	<object>
		<name>tilt</name>
		<pose>Unspecified</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>3759</xmin>
			<ymin>2654</ymin>
			<xmax>4166</xmax>
			<ymax>2892</ymax>
		</bndbox>
	</object>
</annotation>

'''

# 得到文档对象
domobj = xmldom.parse('C:\\Users\\Ilearn\\Desktop\\100005.xml')
# print("xmldom.parse:", type(domobj))
# 得到元素对象
elementobj = domobj.documentElement
# print ("domobj.documentElement:", type(elementobj))

# 获得子标签
# 由elementobj.getElementsByTagName("名称")就可以获得所有该key的元素
# 注意下面的name,xmin均为数组，里面的元素不一定是一个
name = elementobj.getElementsByTagName("name")
xmin = elementobj.getElementsByTagName("xmin"

最低0.47元/天解锁文章

多一些不为什么的坚持

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
tf-faster-rcnn敲重点：如何获取xml里面的内容并画出ground_truth的边框

折腾一天，问题遇到很多。首先是编码问题，因为在起初拿到这批数据的时候，命名都是中文命名，也没有进行修改(并不知道编码问题这么严重)在测试demo.py的时候还好，没有出现编码问题，当我想要输出ground_truth的时候，必须要找到对应的xml文件，但文件命名都是中文，弄了一上午没解决编码问题，不管是decode还是encode还有什么unicode，通通都试了，也没解决，最后发现出现代码的...
复制链接

扫一扫

专栏目录