C++批量处理xml转txt(yolov5格式数据)
该文目的为C++批量处理xml文件部分数据,转txt(yolov5格式数据)。
第一步:读取xml文件名
第二步:创建同名txt文件(为将txt文件对应xml文件以跟图片对应)
第三步:获取xml相关数据并进行归一化
第四步:将数据存入txt文件
实现效果为:获取图片宽高和object下的armor类中的armor_class,armor_color,bndbox中的四个数等内容,整合为yolo要求的txt格式中的五个数据:
1.类别;2.归一化的图片中心点x的值;3.归一化的图片中心点y的值;
4.归一化的图片宽w;5.归一化的图片高h;(归一化的方法是分别除以图片的宽和高。)
归一化的图片中心点x的值= ((xmax-xmin)/ 2 + xmin) / width
归一化的图片中心点y的值= ((ymax-ymin)/ 2 + ymin) / height
归一化的图片宽w = (xmax-xmin)/ width
归一化的图片高h = (ymax-ymin)/ height
第一步: 读取xml文件名
实际实现的是读取文件夹下所有的文件名。
输入为:文件夹的绝对路径 、vector< string >输出文件夹下所有文件名的vector数组的引用。
Struct finddata_t是用来存储文件各种信息的结构体,使用这个结构体需要引用头文件 #include ”io.h“。 需要 _findfirst() _findnext()和 _fineclose()三个函数的搭配使用将文件的信息存储到该结构体的内存空间。
void getFileNames(string path, vector<string>& files)
{
intptr_t hFile = 0;
struct _finddata_t fileinfo;
string p;
//返回句柄给_findnext
if ((hFile = _findfirst(p.assign(path).append("\\*").c_str(), &fileinfo)) != -1)
{
do
{
//_A_SUBDIR文件夹标志位
if ((fileinfo.attrib & _A_SUBDIR))//为目录即迭代
{
if (strcmp(fileinfo.name, ".") != 0 && strcmp(fileinfo.name, "..") != 0)
getFileNames(p.assign(path).append("\\").append(fileinfo.name), files);
}
else//为文件即加入数组
{
files.push_back(p.assign(path).append("\\").append(fileinfo.name));
}
} while (_findnext(hFile, &fileinfo) == 0);
_findclose(hFile);
}
}
第二步:创建同名txt文件
目的为将txt文件与xml文件对应,以实现与图片对应。重要函数为string中的find和replace,以及输出流ofstream的应用。
//files为存放文件名的数组
size_t size = files.size();
for (size_t i = 0; i < size; i++){
string path = files[i];
size_t pos = files[i].find("xml");//string中返回所查字符串第一次出现的位置的函数
if (pos != string::npos)//如果查找失败,返回string::npos
{
files[i] = files[i].replace(pos, 3, "txt");//从第pos位置往后三位替换为txt
}
//创建对应的txt文件
ofstream lout(files[i].c_str());//文件不存在,即会自动创建,等价于lout.open(files[i].c_str());
}
第三步:获取xml相关数据并进行归一化
归一化的前提是先从xml文件中取出数据。大多数人只需要bndbox数据(一个轴对齐的矩形,它框住的是目标在照片中的可见部分),因此此部分仅介绍如何获取bndbox数据。
首先我们需要获取一个开源解析xml的c++库:tinyxml。具体配置见为C++实现读取xml的方法为vs2019引入tinyxml库_cfreeze的博客-CSDN博客。(在vscode中使用始终缺乏链接库,配置为静态lib库 -L加入链接也未解决,此处提供vs2019用法。)
我们要获取bndbox就必须先获得object结点,然后遍历object下的子节点,到bndbox后,再遍历bndbox下的子节点并记录数据。
由于还需要归一化,因此我们仍需要获得size下的width和height结点,以及armor_class类别的数据。因此目标为:size下的width,height;object下的armor_class,xmin,ymin,xmax,ymax共7个数据。
加载xml数据函数
TiXmlDocument* Document = new TiXmlDocument();//创建一个空xml文件
Document->LoadFile(path.c_str());//加载路径下的xml文件给
获取根节点(即annotation结点)函数:
TiXmlElement* Root = Document->RootElement();//并使root指向根节点
获取根节点的第一个孩子结点(即filename结点):
TiXmlElement* RootFirstChildElement = Root->FirstChildElement();
访问下一个元素的函数,即width的下一个元素height :
Element = Element->NextSiblingElement();
//若现在查找到size结点,则访问width结点方法即调用FirstChildElement();访问
//从width访问height方法为NextSiblingElement()
访问当前元素的内容函数 :
Element->GetText();//或者Element->ValueTStr();
//string中将字符串转换成一个双精度数值的函数
double atof(const char *str);
最后我们利用循环结构加条件语句,使用这些函数就可以形成代码,我这里给出我写的实例。
//存放所需数据的结构体
struct Armor
{
int width=0;
int height=0;
int aclass=0;
string acolor="";
int xMin=0;
int yMin=0;
int xMax=0;
int yMax=0;
};
//存放xml文件的文件夹
string xml_path="C:\\Users\\cfreeze\\Desktop\\xml";
//第一步: 读取xml文件名
vector<string> files;
getFileNames(xml_path,files);
Armor *armor = new Armor();//创建指针
main函数如下:
size_t size = files.size();
TiXmlDocument* Document = new TiXmlDocument();
for (size_t i = 0; i < size; i++){//xml文件夹循环
//第二步:创建对应的同名txt文件
string path = files[i];
size_t pos = files[i].find("xml");
if (pos != string::npos)
{
files[i] = files[i].replace(pos, 3, "txt");
}
ofstream lout(files[i].c_str());
//加载xml文件给Document
if(!Document->LoadFile(path.c_str()))
{
cout << "无法加载xml文件";
cin.get();
return false;
}
//获取根节点annotation结点
TiXmlElement* RootElement = Document->RootElement();
//获取根节点的第一个孩子结点filename结点
TiXmlElement* NextElement = RootElement->FirstChildElement();
//单个xml文件读取数据的循环
while(NextElement!=NULL)
{
//size结点的width和height的获取
if(NextElement->ValueTStr() == "size"){
TiXmlElement* sElement = NextElement->FirstChildElement();
armor->width=atof(sElement->GetText());
sElement = sElement->NextSiblingElement();
armor->height=atof(sElement->GetText());
}
if(NextElement->ValueTStr() == "object") //读到object节点
{
TiXmlElement* Element = NextElement->FirstChildElement();
//读到armor_class节点给结构体armor->armor_class赋值
while (Element->ValueTStr() != "armor_class")
{
Element = Element->NextSiblingElement();
while (Element == NULL) {
goto A;
}
}
armor->aclass = atof(Element->GetText());
//读到bndbox节点给结构体armor下数据赋值赋值
while (Element->ValueTStr() != "bndbox")
{
Element = Element->NextSiblingElement();
}
//索引到xmin节点
TiXmlElement* xminElemeng = Element->FirstChildElement();
{ //分别读取四个数值
armor->xMin = atof(xminElemeng->GetText());
TiXmlElement* yminElemeng = xminElemeng->NextSiblingElement();
armor->yMin = atof(yminElemeng->GetText());
TiXmlElement* xmaxElemeng = yminElemeng->NextSiblingElement();
armor->xMax = atof(xmaxElemeng->GetText());
TiXmlElement* ymaxElemeng = xmaxElemeng->NextSiblingElement();
armor->yMax = atof(ymaxElemeng->GetText());
}
//处理xml获取数据为yolo格式
double w, h, x, y, a = (armor->xMax - armor->xMin), b = (armor->yMax - armor->yMin);
w = a / armor->width; h = b / armor->height;
x = (a / 2 + armor->xMin) / armor->width; y = (b / 2 + armor->yMin) / armor->height;
//打开txt文件,写入数据,并关闭txt文件
ofstream fin(files[i], std::ofstream::app);
fin << armor->aclass << " " << x << " " << y << " " << w << " " << h << endl;
fin.close();
}//if循环
A:
NextElement = NextElement->NextSiblingElement();
}//while
}//for
第四步:将数据存入txt文件
在上述代码中已使用过
//打开txt文件
ofstream fin(files[i], std::ofstream::app);
//写入数据
fin << armor->aclass << " " << x << " " << y << " " << w << " " << h << endl;
//关闭txt文件
fin.close();