问题描述:
- 现有images图片,txt文件包含四种类别bounding box 坐标,需要将txt中两种类别坐标提取出来并转化成xml文件。
- images文件夹中有18184张图片,txt文件夹中只有16907个txt文件(即有一千多张图片是没有标注的,需要将这些图片删除)
# ! /usr/bin/python
# -*- coding:UTF-8 -*-
import os, sys
import glob
from PIL import Image
# 图像存储位置
src_img_dir = "./1028data/images"
# 图像的 ground truth 的 txt 文件存放位置
src_txt_dir = "./1028data/annotations"
# 生成xml文件存放位置
src_xml_dir = "./1028data/xml"
img_Lists = glob.glob(src_img_dir + '/*.jpg')
img_basenames = [] # e.g. 100.jpg
for item in img_Lists:
img_basenames.append(os.path.basename(item))
img_names = [] # e.g. 100
for item in img_basenames:
temp1, temp2 = os.path.splitext(item)
img_names.append(temp1)
for img in img_names:
im = Image.open((src_img_dir + '/' + img + '.jpg'))
width, height = im.size #xml文件中需要wid