C++批量处理xml转txt（yolov5格式数据)

最新推荐文章于 2024-06-07 01:53:59 发布

cfreeze

最新推荐文章于 2024-06-07 01:53:59 发布

阅读量962

点赞数 1

分类专栏：深度学习文章标签： xml c++ 开发语言深度学习

本文链接：https://blog.csdn.net/qq_51942219/article/details/122504543

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

C++批量处理xml转txt（yolov5格式数据)

该文目的为C++批量处理xml文件部分数据，转txt（yolov5格式数据)。

第一步：读取xml文件名

第二步：创建同名txt文件（为将txt文件对应xml文件以跟图片对应）

第三步：获取xml相关数据并进行归一化

第四步：将数据存入txt文件

实现效果为：获取图片宽高和object下的armor类中的armor_class,armor_color,bndbox中的四个数等内容，整合为yolo要求的txt格式中的五个数据：

1.类别；2.归一化的图片中心点x的值；3.归一化的图片中心点y的值；

4.归一化的图片宽w；5.归一化的图片高h；（归一化的方法是分别除以图片的宽和高。）

归一化的图片中心点x的值= （（xmax-xmin）/ 2 + xmin) / width

归一化的图片中心点y的值= （（ymax-ymin）/ 2 + ymin) / height

归一化的图片宽w = （xmax-xmin）/ width

归一化的图片高h = （ymax-ymin）/ height

请添加图片描述

第一步：读取xml文件名

实际实现的是读取文件夹下所有的文件名。

输入为：文件夹的绝对路径、vector< string >输出文件夹下所有文件名的vector数组的引用。

Struct finddata_t是用来存储文件各种信息的结构体，使用这个结构体需要引用头文件 #include ”io.h“。需要 _findfirst（） _findnext（）和 _fineclose（）三个函数的搭配使用将文件的信息存储到该结构体的内存空间。

void getFileNames(string path, vector<string>& files)
{
    intptr_t hFile = 0;
    struct _finddata_t fileinfo;
    string p;
    //返回句柄给_findnext
    if ((hFile = _findfirst(p.assign(path).append("\\*").c_str(), &fileinfo)) != -1)
    {
        do
        {
            //_A_SUBDIR文件夹标志位
            if ((fileinfo.attrib & _A_SUBDIR))//为目录即迭代
            {
                if (strcmp(fileinfo.name, ".") != 0 && strcmp(fileinfo.name, "..") != 0)
                    getFileNames(p.assign(path).append("\\").append(fileinfo.name), files);
            }
            else//为文件即加入数组
            {
                files.push_back(p.assign(path).append("\\").append(fileinfo.name));
            }
        } while (_findnext(hFile, &fileinfo) == 0);
        _findclose(hFile);
    }
}

第二步：创建同名txt文件

目的为将txt文件与xml文件对应，以实现与图片对应。重要函数为string中的find和replace，以及输出流ofstream的应用。

//files为存放文件名的数组
size_t size = files.size();
for (size_t i = 0; i < size; i++){
    string path = files[i];
    size_t pos = files[i].find("xml");//string中返回所查字符串第一次出现的位置的函数
    if (pos != string::npos)//如果查找失败，返回string::npos
    {
        files[i] = files[i].replace(pos, 3, "txt");//从第pos位置往后三位替换为txt
    }
    //创建对应的txt文件
    ofstream lout(files[i].c_str());//文件不存在，即会自动创建，等价于lout.open(files[i].c_str());
}

第三步：获取xml相关数据并进行归一化

归一化的前提是先从xml文件中取出数据。大多数人只需要bndbox数据（一个轴对齐的矩形，它框住的是目标在照片中的可见部分），因此此部分仅介绍如何获取bndbox数据。

首先我们需要获取一个开源解析xml的c++库：tinyxml。具体配置见为C++实现读取xml的方法为vs2019引入tinyxml库_cfreeze的博客-CSDN博客。（在vscode中使用始终缺乏链接库，配置为静态lib库 -L加入链接也未解决，此处提供vs2019用法。）

请添加图片描述

我们要获取bndbox就必须先获得object结点，然后遍历object下的子节点，到bndbox后，再遍历bndbox下的子节点并记录数据。

由于还需要归一化，因此我们仍需要获得size下的width和height结点，以及armor_class类别的数据。因此目标为：size下的width，height；object下的armor_class，xmin，ymin，xmax，ymax共7个数据。

加载xml数据函数

TiXmlDocument* Document = new TiXmlDocument();//创建一个空xml文件	
Document->LoadFile(path.c_str());//加载路径下的xml文件给

获取根节点（即annotation结点）函数:

TiXmlElement* Root =  Document->RootElement();//并使root指向根节点

获取根节点的第一个孩子结点（即filename结点）:

TiXmlElement* RootFirstChildElement = Root->FirstChildElement();

访问下一个元素的函数，即width的下一个元素height :

Element = Element->NextSiblingElement();
//若现在查找到size结点，则访问width结点方法即调用FirstChildElement();访问
//从width访问height方法为NextSiblingElement()

访问当前元素的内容函数 :

Element->GetText();//或者Element->ValueTStr();
//string中将字符串转换成一个双精度数值的函数
double atof(const char *str);

最后我们利用循环结构加条件语句，使用这些函数就可以形成代码，我这里给出我写的实例。

//存放所需数据的结构体
struct Armor
{
    int width=0;
    int height=0;
    int aclass=0;
    string acolor="";
	int xMin=0;
	int yMin=0;
	int xMax=0;
	int yMax=0;
};

//存放xml文件的文件夹
string xml_path="C:\\Users\\cfreeze\\Desktop\\xml";

//第一步： 读取xml文件名
vector<string> files;
getFileNames(xml_path,files);

Armor *armor = new Armor();//创建指针

main函数如下：

size_t size = files.size();
TiXmlDocument* Document = new TiXmlDocument();

for (size_t i = 0; i < size; i++){//xml文件夹循环
    //第二步：创建对应的同名txt文件
    string path = files[i];
    size_t pos = files[i].find("xml");
    if (pos != string::npos)
    {
        files[i] = files[i].replace(pos, 3, "txt");
    }
    ofstream lout(files[i].c_str());
    
    //加载xml文件给Document
    if(!Document->LoadFile(path.c_str()))
    {
        cout << "无法加载xml文件";
        cin.get();
        return false; 
    }
	
    //获取根节点annotation结点
    TiXmlElement* RootElement = Document->RootElement();  
    //获取根节点的第一个孩子结点filename结点
    TiXmlElement* NextElement = RootElement->FirstChildElement();

    //单个xml文件读取数据的循环
    while(NextElement!=NULL) 
    {
        //size结点的width和height的获取
        if(NextElement->ValueTStr() == "size"){
            TiXmlElement* sElement = NextElement->FirstChildElement();
            armor->width=atof(sElement->GetText());
            sElement = sElement->NextSiblingElement();
            armor->height=atof(sElement->GetText());
        }
        if(NextElement->ValueTStr() == "object")		//读到object节点
        {
            TiXmlElement* Element = NextElement->FirstChildElement();
            //读到armor_class节点给结构体armor->armor_class赋值
            while (Element->ValueTStr() != "armor_class")		
            {
                Element = Element->NextSiblingElement();
                while (Element == NULL) {
                    goto A;
                }
            }
            armor->aclass = atof(Element->GetText());

            //读到bndbox节点给结构体armor下数据赋值赋值
            while (Element->ValueTStr() != "bndbox")
            {
                Element = Element->NextSiblingElement();
            }
            //索引到xmin节点
            TiXmlElement* xminElemeng = Element->FirstChildElement();
            {   //分别读取四个数值
                armor->xMin = atof(xminElemeng->GetText());
                TiXmlElement* yminElemeng = xminElemeng->NextSiblingElement();
                armor->yMin = atof(yminElemeng->GetText());
                TiXmlElement* xmaxElemeng = yminElemeng->NextSiblingElement();
                armor->xMax = atof(xmaxElemeng->GetText());
                TiXmlElement* ymaxElemeng = xmaxElemeng->NextSiblingElement();
                armor->yMax = atof(ymaxElemeng->GetText());
            }
            
            //处理xml获取数据为yolo格式
            double w, h, x, y， a = (armor->xMax - armor->xMin)， b = (armor->yMax - armor->yMin);
            w = a / armor->width; h = b / armor->height; 
            x = (a / 2 + armor->xMin) / armor->width; y = (b / 2 + armor->yMin) / armor->height;
            
            //打开txt文件，写入数据，并关闭txt文件
            ofstream fin(files[i], std::ofstream::app);
            fin << armor->aclass << " " << x << " " << y << " " << w << " " << h << endl;
            fin.close();
             
        }//if循环
        A:
        NextElement = NextElement->NextSiblingElement();
    }//while
}//for

第四步：将数据存入txt文件

在上述代码中已使用过

//打开txt文件
ofstream fin(files[i], std::ofstream::app);
//写入数据
fin << armor->aclass << " " << x << " " << y << " " << w << " " << h << endl;
//关闭txt文件
fin.close();

cfreeze

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
C++批量处理xml转txt（yolov5格式数据)

C++批量处理xml转txt（yolov5格式数据)该文目的为C++批量处理xml文件部分数据，转txt（yolov5格式数据)。第一步：读取xml文件名第二步：创建同名txt文件（为将txt文件对应xml文件以跟图片对应）第三步：获取xml相关数据并进行归一化第四步：将数据存入txt文件实现效果为：获取图片宽高和object下的armor类中的armor_class,armor_color,bndbox中的四个数等内容，整合为yolo要求的txt格式中的五个数据：1.类别；2.归一化的图片中
复制链接

扫一扫