Few-shot Object Detection via Feature Reweighting跑自己的数据集

小火车、摆动的旋律

已于 2023-03-02 16:43:58 修改

阅读量3k

点赞数 5

文章标签：目标检测人工智能计算机视觉

于 2022-07-16 00:29:53 首次发布

本文链接：https://blog.csdn.net/qq_50777229/article/details/125691741

版权

本文详细介绍了在Ubuntu系统中配置Few-Shot Object Detection的环境，包括使用Anaconda创建虚拟环境，安装PyTorch和CUDA，执行requirements.txt，以及针对新数据集的预处理步骤，如数据格式转换、标签映射和XML文件制作等。文章还提供了数据集组织结构和训练所需参数文件的配置方法。

摘要由CSDN通过智能技术生成

Few-shot Object Detection via Feature Reweighting跑自己的数据集

说明
- 配置环境

说明

上篇文章记录了我配置环境的过程，现在看来感觉有点啰嗦，所以打算写一篇简洁的配置环境的流程，这篇文章是few-shot learning运用于目标检测的比较早的文章，最近貌似few-shot learning比较火，估计很多人都会以这篇文章作为切入点。

配置环境

很多人可能会用pycharm创建环境，但是在租用服务器的时候有时候没有图形界面，比较麻烦，所以我写一个黑框（终端）的比较通用（在pycharm的终端里也可以使用）的版本，步骤如下：
（1）基础电脑操作系统为ubantu（为了更好的操作，可以装个ubantu，变为双系统，如果条件允许，多分点内存给ubantu吧，不然后面内存不足太难受了），我目前只在ubantu上配通。另外还需要装个Anocaonda（去官网找对应ubantu的安装包），常用的版本就行。租用服务器的话一般都自带有Anocaonda。我常租用的服务器是 MistGPU，其他的没怎么用过。关于MistGPU的使用，我写了一个教程： MistGPU云服务器的使用.
（2）下载代码：代码，并解压。
（3）cd进入到主目录下，或者在主目录下打开终端。
（4）创建虚拟环境：

conda create -n xxx python=2.7   # xxx为你设定的虚拟环境的名字，假设为few

会提示下载一些东西，输入y，摁Enter。
（5）激活虚拟环境

conda activate few

（6）执行requirements.txt

pip install -r requirements.txt

requirements.txt为代码运行需要的一些包。
如果显示requirements.txt中opencv版本不匹配，没有3.4.2，我修改equirements.txt中opencv版本为3.4.2.16后，再执行pip install -r requirements.txt，没有报错，就是看你的报错里显示支持哪个版本，选一个改一下再执行requirements.txt即可。
（7）执行requirements.txt成功后，配置pytorch和cuda，执行

 pip install torch==1.4.0+cu92 torchvision==0.5.0+cu92 -f https://download.pytorch.org/whl/torch_stable.html

记得验证下cuda是否能用：import torch … 具体语句记不清了，网上都能查到的。
以上都没有报错的话，环境是没多大问题了。接下来就是准备数据集，具体可以看上一篇文章链接: Few-shot Object Detection via Feature Reweighting论文学习以及复现，可能遇到的问题啥的基本都记录了。后面有时间再写下如何准备数据集吧，特别是对于新的数据集怎么处理、怎们改使其符合代码需要的格式。
（8）数据集格式
将整个代码工程放在一个名为fewshot的文件夹下，在里面创建一个名为voc的文件夹存放数据集。整个框架如下：
在这里插入图片描述
关于数据集类别的问题：
代码里有关于voc、coco数据集的代码，如果训练这些数据集的话，可以直接选对应的参数既可，数据集的准备过程按照作者给的步骤操作就行，假如训练新的数据集的话就可以用我的数据准备的方法，我也是模仿作者所给的步骤所得出的框架。
训练新的数据集，如果直接改类别，就要改一些代码，而且还可能报错，我尝试了一下，报错了，改起来貌似挺麻烦。其实可以这样，把自己的类别与代码里的类别对应即可，就是用代码里的类别代替自己数据的类别，自己注意对应关系即可，训练过程中使用的是class_id。

__C.voc_classes = ["aeroplane", "bicycle", "bird", "boat", "bottle",
           "bus", "car", "cat", "chair", "cow", "diningtable",
           "dog", "horse", "motorbike", "person", "pottedplant",
           "sheep", "sofa", "train", "tvmonitor"]

修改示例：
假如我有6个类，plane1、tank1、ship1、plane2、tank2、ship2，用voc class中的 [“aeroplane”, “bicycle”, “bird”, “boat”, “bottle”, “bus”]来表示即可（记得修改xml文件对应），并修改标签类别id分别为0、1、2、3、4、5、6（修改txt）.
具体步骤：
（1）.先把目标域和源域的数据集标签格式转为yolo格式：class_id x,y,w,h （网上代码很多）
（2）.把目标域和源域的数据集合起来，images和labels放在一起，数据集按类分出来，得到label_1c对应的文件，代码如下：

txtpath = r"path/labels"  // 定位到数据集标签所在的文件夹labels
txtnames = os.listdir(txtpath)
# 分类
for i in txtnames:
    with open(txtpath + '/' + i, "r") as f:
        l = []
        file = f.readlines()
        print(i)
        # flag = 0
        for line in file:
            line = line.strip("\n")
            dd = line.split()
            if dd[0] == '2':
                # flag = flag + 1
                l.append(dd)
        if len(l)>0:
            with open(r"xxx\labels_1c/xx/" + i, 'w') as q: // xx为类别名称
                for j in l:
                    tem =j[0]+" "+j[1]+" "+j[2]+" "+j[3]+" "+j[4]
                    q.write(tem+'\n')

（3）制作xml文件（所有图片的，如果自带xml文件，记得修改对应的类别，详见修改示例），也可以重新生成txt，txt文件转xml，代码如下：

from xml.dom.minidom import Document
import os
import cv2


# def makexml(txtPath, xmlPath, picPath):  # txt所在文件夹路径，xml文件保存路径，图片所在文件夹路径
def makexml(picPath, txtPath, xmlPath):  # txt所在文件夹路径，xml文件保存路径，图片所在文件夹路径
    """此函数用于将yolo格式txt标注文件转换为voc格式xml标注文件
    """
    dic = {'0': "aeroplane",  # 创建字典用来对类型进行转换
           '1': "bicycle",  # 此处的字典要与自己的classes.txt文件中的类对应，且顺序要一致
           '2': "bird",
           '3': "boat",
           '4': "cow",
           '5': "bus",
           }
    files = os.listdir(txtPath)
    for i, name in enumerate(files):
        xmlBuilder = Document()
        annotation = xmlBuilder.createElement("annotation")  # 创建annotation标签
        xmlBuilder.appendChild(annotation)
        txtFile = open(txtPath + name)
        txtList = txtFile.readlines()
        img = cv2.imread(picPath + name[0:-4] + ".tif")
        Pheight, Pwidth, Pdepth = img.shape

        folder = xmlBuilder.createElement("folder")  # folder标签
        foldercontent = xmlBuilder.createTextNode("driving_annotation_dataset")
        folder.appendChild(foldercontent)
        annotation.appendChild(folder)  # folder标签结束

        filename = xmlBuilder.createElement("filename")  # filename标签
        filenamecontent = xmlBuilder.createTextNode(name[0:-4] + ".tif")
        filename.appendChild(filenamecontent)
        annotation.appendChild(filename)  # filename标签结束

        size = xmlBuilder.createElement("size")  # size标签
        width = xmlBuilder.createElement("width")  # size子标签width
        widthcontent = xmlBuilder.createTextNode(str(Pwidth))
        width.appendChild(widthcontent)
        size.appendChild(width)  # size子标签width结束

        height = xmlBuilder.createElement("height")  # size子标签height
        heightcontent = xmlBuilder.createTextNode(str(Pheight))
        height.appendChild(heightcontent)
        size.appendChild(height)  # size子标签height结束

        depth = xmlBuilder.createElement("depth")  # size子标签depth
        depthcontent = xmlBuilder.createTextNode(str(Pdepth))
        depth.appendChild(depthcontent)
        size.appendChild(depth)  # size子标签depth结束

        annotation.appendChild(size)  # size标签结束

        for j in txtList:
            oneline = j.strip().split(" ")
            object = xmlBuilder.createElement("object")  # object 标签
            picname = xmlBuilder.createElement("name")  # name标签
            namecontent = xmlBuilder.createTextNode(dic[oneline[0]])
            picname.appendChild(namecontent)
            object.appendChild(picname)  # name标签结束

            pose = xmlBuilder.createElement("pose")  # pose标签
            posecontent = xmlBuilder.createTextNode("Unspecified")
            pose.appendChild(posecontent)
            object.appendChild(pose)  # pose标签结束

            truncated = xmlBuilder.createElement("truncated")  # truncated标签
            truncatedContent = xmlBuilder.createTextNode("0")
            truncated.appendChild(truncatedContent)
            object.appendChild(truncated)  # truncated标签结束

            difficult = xmlBuilder.createElement("difficult")  # difficult标签
            difficultcontent = xmlBuilder.createTextNode("0")
            difficult.appendChild(difficultcontent)
            object.appendChild(difficult)  # difficult标签结束

            bndbox = xmlBuilder.createElement("bndbox")  # bndbox标签
            xmin = xmlBuilder.createElement("xmin")  # xmin标签
            mathData = int(((float(oneline[1])) * Pwidth + 1) - (float(oneline[3])) * 0.5 * Pwidth)
            xminContent = xmlBuilder.createTextNode(str(mathData))
            xmin.appendChild(xminContent)
            bndbox.appendChild(xmin)  # xmin标签结束

            ymin = xmlBuilder.createElement("ymin")  # ymin标签
            mathData = int(((float(oneline[2])) * Pheight + 1) - (float(oneline[4])) * 0.5 * Pheight)
            yminContent = xmlBuilder.createTextNode(str(mathData))
            ymin.appendChild(yminContent)
            bndbox.appendChild(ymin)  # ymin标签结束

            xmax = xmlBuilder.createElement("xmax")  # xmax标签
            mathData = int(((float(oneline[1])) * Pwidth + 1) + (float(oneline[3])) * 0.5 * Pwidth)
            xmaxContent = xmlBuilder.createTextNode(str(mathData))
            xmax.appendChild(xmaxContent)
            bndbox.appendChild(xmax)  # xmax标签结束

            ymax = xmlBuilder.createElement("ymax")  # ymax标签
            mathData = int(((float(oneline[2])) * Pheight + 1) + (float(oneline[4])) * 0.5 * Pheight)
            ymaxContent = xmlBuilder.createTextNode(str(mathData))
            ymax.appendChild(ymaxContent)
            bndbox.appendChild(ymax)  # ymax标签结束

            object.appendChild(bndbox)  # bndbox标签结束

            annotation.appendChild(object)  # object标签结束

        f = open(xmlPath + name[0:-4] + ".xml", 'w')
        xmlBuilder.writexml(f, indent='\t', newl='\n', addindent='\t', encoding='utf-8')
        f.close()


if __name__ == "__main__":
    picPath = r"D:\BaiduNetdiskDownload\fewshot\xView_split_clearE1\train\test_image/"  # 图片所在文件夹路径，后面的/一定要带上
    txtPath = r"D:\BaiduNetdiskDownload\fewshot\xView_split_clearE1\train\test_txt/"  # txt所在文件夹路径，后面的/一定要带上
    xmlPath = r"D:\BaiduNetdiskDownload\fewshot\xView_split_clearE1\train\1/"  # xml文件保存路径，后面的/一定要带上
    makexml(picPath, txtPath, xmlPath)

自己修改对应的路径即可。
（4）分训练数据trian.txt（只含有源域数据图片）和测试数据test.txt（源域、目标域）（测试数据，控制每个类的数量尽量均衡），分好后，获取训练数据图片的路径，制作train.txt，获取测试图片的路径，制作test.txt，代码如下：

# 统计每个类别数目
# cc = 0
# c1,c2,c3 = 0,0,0
# for i in range(len(txtnames)):
#     cc =cc+1
#     with open(txtpath + '/' + txtnames[i], "r") as f:
#         file = f.readlines()
#         print(file)
#         for line in file:
#             line = line.strip("\n")
#             dd = line.split()
#             if dd[0] == '0':
#                 c1 = c1+1
#             elif dd[0] == '1':
#                 c2 = c2 + 1
#             elif dd[0] == '2':
#                 c3 = c3 + 1
import os
p = r"xxx\testtxt"
paths = r"xxx\images"
f = open(r"xxx/"+'名字.txt', 'w')
filenames = os.listdir(p)
imanames =  os.listdir(paths)
# filenames.sort()
for imaname in imanames:
    tem = imaname.replace("tif","txt")
    if tem not in filenames:
        out_path = "xxx/images/" + imaname
    # out_path = filename.replace(".txt","")
    # if filename[0] == "P":
    #     out_path = "xxx/images/" + filename.replace(".txt",".png")
    # else:
    #     out_path = "xxx/images/"+filename.replace(".txt", ".tif")
        print(out_path)
        f.write(out_path + '\n')
f.close()

代码不难，看懂改改就行。
（5）制作各类别的train.txt，即cls_train下的文件在这里插入图片描述
代码思路：
（2）中得到了按类的所有图片（train、test）的txt，按类别（文件夹）读取类别对应的图片的文件名（replace替换，后缀得到图片名称.jpg/png…）假设为listA，然后获取test.txt中的图片名称，假设为listB，在A中去除B，然后路径+图片名称保存为类别_train.txt。（过程略有复杂…）
————————————
以上，第一阶段就可以训练了：
参数文件metayolo.data配置：

metayolo=1
metain_type=2
data=voc
neg = 1
rand = 0
novel = data/voc_novels.txt           
novelid = 0                            
scale = 1
meta = data/voc_traindict_full.txt 
train = path/train.txt
valid = path/test.txt
backup = backup/metayolo
gpus=1,2,3,4

其中:
data = voc 代表类别为voc类别，如果上面按照我所说的替换类别对应，这里就不用改（voc类别对应一些数据参数，如代码中的scale参数，暂时不考虑改，默认，在调参数阶段可以根据数据集进行调整）。

voc_novels.txt 为新类别名称 novelid = 0 为新类别的位置，例如voc_novels.txt ，novelid = 1:

bird,bus,cow,motorbike,sofa
aeroplane,bottle,cow,horse,sofa
boat,cat,motorbike,sheep,sofa
bicycle,bird,motorbike,train,tvmonitor
aeroplane,bird,bus,cat,person
car,diningtable,motorbike,pottedplant,tvmonitor

则新类别（目标域）为第二行对应的类别：aeroplane,bottle,cow,horse,sofa

meta = data/voc_traindict_full.txt
voc_traindict_full.txt文件的内容为：（类别_train.txt的路径），例如：

aeroplane /home/bykang/voc/voclist/aeroplane_train.txt
bicycle /home/bykang/voc/voclist/bicycle_train.txt
bird /home/bykang/voc/voclist/bird_train.txt
boat /home/bykang/voc/voclist/boat_train.txt
bottle /home/bykang/voc/voclist/bottle_train.txt
bus /home/bykang/voc/voclist/bus_train.txt
car /home/bykang/voc/voclist/car_train.txt

（6）制作测试需要的文件，即：在这里插入图片描述
在相应的目录下建立上图对应文件夹，这里注意名称大小写 VOCdevkit VOC2007 ImageSets Main，VOC2007下的Annotations直接整个复制已经有的Annotations，Main中test.txt为测试图片的名称，不带路径和后缀。
测试第一阶段：
在darknet_meta.py中的 def meta_forward(self, metax, mask):函数中
语句
for model in self.learnet_models:
metax = model(metax)
改为：
for model in self.learnet_models:
with torch.no_grad():
metax = model(metax)
训练的时候记得把 with torch.no_grad():去了哈
执行
python valid_ensemble.py cfg/metayolo.data cfg/darknet_dynamic.cfg cfg/reweighting_net.cfg path/toweightfile
执行完，得到测试的txt，在results文件下，执行
python scripts/voc_eval.py results/path/to/comp4_det_test_
需要修改：

小火车、摆动的旋律

关注

5
点赞
踩
34

收藏

觉得还不错? 一键收藏
10
评论
Few-shot Object Detection via Feature Reweighting跑自己的数据集

Few-shot Object Detection via Feature Reweighting代码复现
复制链接

扫一扫