C++批量处理xml转txt(yolov5格式数据)

C++批量处理xml转txt(yolov5格式数据)

该文目的为C++批量处理xml文件部分数据,转txt(yolov5格式数据)。

第一步:读取xml文件名

第二步:创建同名txt文件(为将txt文件对应xml文件以跟图片对应)

第三步:获取xml相关数据并进行归一化

第四步:将数据存入txt文件

实现效果为:获取图片宽高和object下的armor类中的armor_class,armor_color,bndbox中的四个数等内容,整合为yolo要求的txt格式中的五个数据:

1.类别;2.归一化的图片中心点x的值;3.归一化的图片中心点y的值;

4.归一化的图片宽w;5.归一化的图片高h;(归一化的方法是分别除以图片的宽和高。)

归一化的图片中心点x的值= ((xmax-xmin)/ 2 + xmin) / width

归一化的图片中心点y的值= ((ymax-ymin)/ 2 + ymin) / height

归一化的图片宽w = (xmax-xmin)/ width

归一化的图片高h = (ymax-ymin)/ height

请添加图片描述

第一步: 读取xml文件名

实际实现的是读取文件夹下所有的文件名。

输入为:文件夹的绝对路径 、vector< string >输出文件夹下所有文件名的vector数组的引用。

Struct finddata_t是用来存储文件各种信息的结构体,使用这个结构体需要引用头文件 #include ”io.h“。 需要 _findfirst() _findnext()和 _fineclose()三个函数的搭配使用将文件的信息存储到该结构体的内存空间。

void getFileNames(string path, vector<string>& files)
{
    intptr_t hFile = 0;
    struct _finddata_t fileinfo;
    string p;
    //返回句柄给_findnext
    if ((hFile = _findfirst(p.assign(path).append("\\*").c_str(), &fileinfo)) != -1)
    {
        do
        {
            //_A_SUBDIR文件夹标志位
            if ((fileinfo.attrib & _A_SUBDIR))//为目录即迭代
            {
                if (strcmp(fileinfo.name, ".") != 0 && strcmp(fileinfo.name, "..") != 0)
                    getFileNames(p.assign(path).append("\\").append(fileinfo.name), files);
            }
            else//为文件即加入数组
            {
                files.push_back(p.assign(path).append("\\").append(fileinfo.name));
            }
        } while (_findnext(hFile, &fileinfo) == 0);
        _findclose(hFile);
    }
}

第二步:创建同名txt文件

目的为将txt文件与xml文件对应,以实现与图片对应。重要函数为string中的find和replace,以及输出流ofstream的应用。

//files为存放文件名的数组
size_t size = files.size();
for (size_t i = 0; i < size; i++){
    string path = files[i];
    size_t pos = files[i].find("xml");//string中返回所查字符串第一次出现的位置的函数
    if (pos != string::npos)//如果查找失败,返回string::npos
    {
        files[i] = files[i].replace(pos, 3, "txt");//从第pos位置往后三位替换为txt
    }
    //创建对应的txt文件
    ofstream lout(files[i].c_str());//文件不存在,即会自动创建,等价于lout.open(files[i].c_str());
}

第三步:获取xml相关数据并进行归一化

归一化的前提是先从xml文件中取出数据。大多数人只需要bndbox数据(一个轴对齐的矩形,它框住的是目标在照片中的可见部分),因此此部分仅介绍如何获取bndbox数据。

首先我们需要获取一个开源解析xml的c++库:tinyxml。具体配置见为C++实现读取xml的方法为vs2019引入tinyxml库_cfreeze的博客-CSDN博客。(在vscode中使用始终缺乏链接库,配置为静态lib库 -L加入链接也未解决,此处提供vs2019用法。)

请添加图片描述

我们要获取bndbox就必须先获得object结点,然后遍历object下的子节点,到bndbox后,再遍历bndbox下的子节点并记录数据。

由于还需要归一化,因此我们仍需要获得size下的width和height结点,以及armor_class类别的数据。因此目标为:size下的width,height;object下的armor_class,xmin,ymin,xmax,ymax共7个数据。

加载xml数据函数

TiXmlDocument* Document = new TiXmlDocument();//创建一个空xml文件	
Document->LoadFile(path.c_str());//加载路径下的xml文件给

获取根节点(即annotation结点)函数:

TiXmlElement* Root =  Document->RootElement();//并使root指向根节点

获取根节点的第一个孩子结点(即filename结点):

TiXmlElement* RootFirstChildElement = Root->FirstChildElement();

访问下一个元素的函数,即width的下一个元素height :

Element = Element->NextSiblingElement();
//若现在查找到size结点,则访问width结点方法即调用FirstChildElement();访问
//从width访问height方法为NextSiblingElement()

访问当前元素的内容函数 :

Element->GetText();//或者Element->ValueTStr();
//string中将字符串转换成一个双精度数值的函数
double atof(const char *str);

最后我们利用循环结构加条件语句,使用这些函数就可以形成代码,我这里给出我写的实例。

//存放所需数据的结构体
struct Armor
{
    int width=0;
    int height=0;
    int aclass=0;
    string acolor="";
	int xMin=0;
	int yMin=0;
	int xMax=0;
	int yMax=0;
};

//存放xml文件的文件夹
string xml_path="C:\\Users\\cfreeze\\Desktop\\xml";

//第一步: 读取xml文件名
vector<string> files;
getFileNames(xml_path,files);

Armor *armor = new Armor();//创建指针

main函数如下:

size_t size = files.size();
TiXmlDocument* Document = new TiXmlDocument();

for (size_t i = 0; i < size; i++){//xml文件夹循环
    //第二步:创建对应的同名txt文件
    string path = files[i];
    size_t pos = files[i].find("xml");
    if (pos != string::npos)
    {
        files[i] = files[i].replace(pos, 3, "txt");
    }
    ofstream lout(files[i].c_str());
    
    //加载xml文件给Document
    if(!Document->LoadFile(path.c_str()))
    {
        cout << "无法加载xml文件";
        cin.get();
        return false; 
    }
	
    //获取根节点annotation结点
    TiXmlElement* RootElement = Document->RootElement();  
    //获取根节点的第一个孩子结点filename结点
    TiXmlElement* NextElement = RootElement->FirstChildElement();

    //单个xml文件读取数据的循环
    while(NextElement!=NULL) 
    {
        //size结点的width和height的获取
        if(NextElement->ValueTStr() == "size"){
            TiXmlElement* sElement = NextElement->FirstChildElement();
            armor->width=atof(sElement->GetText());
            sElement = sElement->NextSiblingElement();
            armor->height=atof(sElement->GetText());
        }
        if(NextElement->ValueTStr() == "object")		//读到object节点
        {
            TiXmlElement* Element = NextElement->FirstChildElement();
            //读到armor_class节点给结构体armor->armor_class赋值
            while (Element->ValueTStr() != "armor_class")		
            {
                Element = Element->NextSiblingElement();
                while (Element == NULL) {
                    goto A;
                }
            }
            armor->aclass = atof(Element->GetText());

            //读到bndbox节点给结构体armor下数据赋值赋值
            while (Element->ValueTStr() != "bndbox")
            {
                Element = Element->NextSiblingElement();
            }
            //索引到xmin节点
            TiXmlElement* xminElemeng = Element->FirstChildElement();
            {   //分别读取四个数值
                armor->xMin = atof(xminElemeng->GetText());
                TiXmlElement* yminElemeng = xminElemeng->NextSiblingElement();
                armor->yMin = atof(yminElemeng->GetText());
                TiXmlElement* xmaxElemeng = yminElemeng->NextSiblingElement();
                armor->xMax = atof(xmaxElemeng->GetText());
                TiXmlElement* ymaxElemeng = xmaxElemeng->NextSiblingElement();
                armor->yMax = atof(ymaxElemeng->GetText());
            }
            
            //处理xml获取数据为yolo格式
            double w, h, x, y, a = (armor->xMax - armor->xMin), b = (armor->yMax - armor->yMin);
            w = a / armor->width; h = b / armor->height; 
            x = (a / 2 + armor->xMin) / armor->width; y = (b / 2 + armor->yMin) / armor->height;
            
            //打开txt文件,写入数据,并关闭txt文件
            ofstream fin(files[i], std::ofstream::app);
            fin << armor->aclass << " " << x << " " << y << " " << w << " " << h << endl;
            fin.close();
             
        }//if循环
        A:
        NextElement = NextElement->NextSiblingElement();
    }//while
}//for

第四步:将数据存入txt文件

在上述代码中已使用过

//打开txt文件
ofstream fin(files[i], std::ofstream::app);
//写入数据
fin << armor->aclass << " " << x << " " << y << " " << w << " " << h << endl;
//关闭txt文件
fin.close();
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你可以使用第三方库来解析 PDF 并将其换为文本格式,比如 Poppler 或 MuPDF。以下是一个使用 Poppler 的示例代码: ```c++ #include <iostream> #include <poppler/cpp/poppler-document.h> #include <poppler/cpp/poppler-page.h> int main(int argc, char* argv[]) { if (argc < 2) { std::cerr << "Usage: " << argv[0] << " file1.pdf [file2.pdf ...]" << std::endl; return 1; } for (int i = 1; i < argc; ++i) { std::string filename = argv[i]; std::cout << "Converting " << filename << "..." << std::endl; try { auto document = std::make_unique<poppler::document>(poppler::document::load_from_file(filename)); int num_pages = document->pages(); std::string output_filename = filename + ".txt"; std::ofstream output(output_filename); for (int j = 0; j < num_pages; ++j) { auto page = std::make_unique<poppler::page>(document->create_page(j)); std::string text = page->text().to_utf8(); output << text; } output.close(); std::cout << "Done." << std::endl; } catch (std::exception& e) { std::cerr << "Failed: " << e.what() << std::endl; } } return 0; } ``` 该代码将逐个处理命令行参数指定的 PDF 文件,并将其换为同名的文本文件。你可以编译并运行该代码: ```sh $ g++ -o pdf2txt pdf2txt.cpp $(pkg-config --cflags --libs poppler-cpp) $ ./pdf2txt file1.pdf file2.pdf ... ``` 如果你需要一次处理多个 PDF 文件,你可以编写一个简单的 shell 脚本来完成它: ```sh #!/bin/sh for file in *.pdf do ./pdf2txt $file done ``` 该脚本将处理当前目录下的所有 PDF 文件

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值