Yolov7训练自己的数据集（超详细教程）

最新推荐文章于 2024-05-29 17:36:32 发布

breeze_csdn

最新推荐文章于 2024-05-29 17:36:32 发布

阅读量2.3k

点赞数 5

分类专栏： deep learning 文章标签：深度学习

原文链接：https://blog.csdn.net/qing2019/article/details/127054577

版权

deep learning 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

5.1 UnicodeDecodeError: 'gbk' codec can't decode type 0xaf in position 525: illegal multibyte sequence

5.2 subprocess.Called processError: Command 'git tag' returned non-zero exit status 128

六，测试

七，解决标签中文显示问题

一，准备数据集

1.1 挑选照片

　　公主做的是缺陷检测方向，没有好办法，只能靠人眼，公主试过用阈值分割法来挑选，但是！如果阈值分割法能准确分离缺陷，就不用用yolo了不是？特别是灰度相近，而且每张照片灰度都不同，背景与缺陷灰度对比度很接近，比如上图中的硌伤~特别是背景有噪声的时候如下图，阈值分割法就直接躺平了~

没办法，从4T的数据里挑出来，挑的公主眼睛都要瞎了~~~

1.2 做标注

　　公主用的labelImg，大部分做yolo标注都用这个，也是很主流的标注工具，安装方法见公主另一篇博客。那篇博客标注方法没写全，在这里详细介绍一下：

　　（1）修改默认标签。公主先只做了一种缺陷，缺陷名称为“硌伤”，因此只写了一种class。在labelImg的安装文件夹中的data/predefined_classes里面修改class：

　　（2）创建images文件夹和labels文件夹，可以放在任意的文件夹下。将挑选出的照片放到images的文件夹中。

　　（3）在cmd中cd到labelImg文件夹下，运行python labelImg命令打开labelImg主页面。或者直接在pycharm的Terminal中打开也行，公主是直接用pycharm的Terminal来运行的。

（4）在主页面上打开待标注文件，进行标注

　　labelImg如上图所示。

- 第一步先将标注类型改为YOLO，这一步非常关键！
- 第二部修改Save Dir到之前创建的labels的文件夹
- 第三步Open Dir，打开之前创建的images文件夹，此时会出现4框中的所有文件
- 双击想要标注的图像，通过Create RectBox在需要标注的位置画出框，选好标注类型就可以啦~
- 可以选中View->Auto Save Mode，这样标注完就不用手动点Save了，直接点Next Image跳到下一张即可自动保存。
- 此时可以看到labels文件夹中多了一个与图像同名的.txt文件，即为标注文件啦！注意，标注与图片是一一对应的！

　　labels的格式如下：

二，下载YoloV7

　　下载地址

　　下载之后的目录结构是这样的：

四，模型训练

4.1 创建yaml文件

　　在data文件夹中创建新的yaml文件，本例中缺陷为硌痕（公主不知道硌痕怎么翻译，长得像气泡，就翻译成了bubble >_<）。把coco.yaml文件复制过来，根据自己的要求修改。

4.2 修改默认参数

　　修改train.py中的默认参数，根据自己的情况修改，参数代表的意思可以参考这篇博客，讲的非常详细。

　　公主只改了这三个，

- --data：是必改的。
- --epochs：公主的缺陷类型比较简单，好识别，因此只设了200个epochs，实际上150个左右的时候就差不多收敛了。
- --batch-size：公主的显卡显存不太行，只设了8个。但照片数量少，只有一千张左右，因此速度也不算慢。
- --img-size：本例训练集照片是512*512的，因此公主使用了默认的[640 640]

4.3 开始训练

　　由于默认参数已经修改了，训练时直接运行命令

即可。

训练时：

训练完毕会提示：

　　最后一轮迭代的权重文件放在runs\train\exp6\weights\last.pt中，最好的权重文件放在runs\train\exp6\weights\bext.pt中。

五，训练模型遇到的问题

5.1 UnicodeDecodeError: 'gbk' codec can't decode type 0xaf in position 525: illegal multibyte sequence

查了下原因是python和win10系统，打开文件时默认的编码方式冲突导致：python默认的是gbk，而win10默认的是utf-8，所以只要改一下python打开文件时，默认的编码就行。（PS：开始公主用的官网默认的 --batch-size 32，然后GPU out of memory了，改成16，还是out of memory，最后含泪改成8.截上图的时候还没到out of memory那一步，因此--batch-size还是32）

5.2 subprocess.Called processError: Command 'git tag' returned non-zero exit status 128

　　主要原因是因为request请求访问github被墙，解决方案就是手动下载所需的yolov7.pt权重文件，地址为https://github.com/WongKinYiu/yolov7。下载之后放在主目录下，然后还要把train.py中的权重从yolo7.pt改为yolov7.pt，

六，测试

　　　在datasets\defect中新建一个文件夹testImages。运行detect.py　　　

在runs\defect\exp2中打开文件查看

　　哎呦，标的很准，可是，由于标签是中文，显示乱码“？？？？？”怎么办呢？

七，解决标签中文显示问题

　　为啥显示乱码呢？查了下资料，原来是opencv的cv2.putText()不支持中文。只能重写plots.py里的plot_one_box()函数，根据这篇博客的介绍。将plot_one_box重写如下：


   
   
     
     
      
      
     
     
     
     
      
      
       
       def 
       
       plot_one_box(
       
       x, img, color=None, label=None, line_thickness=3):
      
      
     
     

     
     
      
      
     
     
     
     
      
          
       
       # Plots one bounding box on image img
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
           tl = line_thickness 
       
       or 
       
       round(
       
       0.002 * (img.shape[
       
       0] + img.shape[
       
       1]) / 
       
       2) + 
       
       1  
       
       # line/font thickness
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
           color = color 
       
       or [random.randint(
       
       0, 
       
       255) 
       
       for _ 
       
       in 
       
       range(
       
       3)]
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
           c1, c2 = (
       
       int(x[
       
       0]), 
       
       int(x[
       
       1])), (
       
       int(x[
       
       2]), 
       
       int(x[
       
       3]))
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
           cv2.rectangle(img, c1, c2, color, thickness=tl, lineType=cv2.LINE_AA)
      
      
     
     

     
     
      
      
     
     
     
     
      
          
       
       if label:
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
               tf = 
       
       max(tl - 
       
       1, 
       
       1)  
       
       # font thickness
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
               t_size = cv2.getTextSize(label, 
       
       0, fontScale=tl / 
       
       3, thickness=tf)[
       
       0]
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
               font_size = t_size[
       
       1]
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
               font = ImageFont.truetype(
       
       r"D:\YOLOV7\yolov7-main\Font\simsun.ttc", font_size, encoding=
       
       "utf-8")
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
               t_size = font.getsize(label)
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
               c2 = c1[
       
       0] + t_size[
       
       0], c1[
       
       1] - t_size[
       
       1]
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
               cv2.rectangle(img, c1, c2, color, -
       
       1, cv2.LINE_AA)  
       
       # filled
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
               img = Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
               draw = ImageDraw.Draw(img)
      
      
     
     

     
     
      
      
     
     
     
     
      
      
       
               draw.text((c1[
       
       0], c2[
       
       1]), label, (
       
       0, 
       
       0, 
       
       0), font=font)
      
      
     
     

     
     
      
      
     
     
     
     
      
              
       
       # cv2.putText(img, label, (c1[0], c1[1] - 2), 0, tl / 3, [225, 255, 255], thickness=tf, lineType=cv2.LINE_AA)        
      
      
     
     

     
     
      
      
     
     
     
     
      
              
       
       return cv2.cvtColor(np.array(img), cv2.COLOR_RGB2BGR)

为了保证多个标签时能都保存下来

　　detect.py文件，plot_one_box(xyxy, im0, ....) 修改为 im0 = plot_one_box(xyxy, im0, ...)

plots.py文件，plot_one_box(box, mosaic,...) 修改为 mosaic = plot_one_box(box, mosaic,...)

最后得到结果：　

完美！！！！！

小插曲：在修改中文标签的时候，想用matplotlib.pyplot.imshow()来打印图片，无奈老是不显示。查了很久才发现是matplotlib.get_backend是agg，而agg不支持GUI画图。但在terminal里运行print(matplotlib.get_backend())明明是QtAgg.后来又在程序里打印,仍然是agg。抓狂了很久后才发现，在plots.py中作者写了这句：

太坑了！！！手动改成matplotlib.use('Qt5Agg')，原码是matplotlib.use('Agg')。

PS：本文与Yolov7训练自己的数据集（超详细） - 玻璃公主 - 博客园一摸一样，都是公主的博客>_<

breeze_csdn

关注

5
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
Yolov7训练自己的数据集（超详细教程）

查了下原因是python和win10系统，打开文件时默认的编码方式冲突导致：python默认的是gbk，而win10默认的是utf-8，所以只要改一下python打开文件时，默认的编码就行。（PS：开始公主用的官网默认的 --batch-size 32，然后GPU out of memory了，改成16，还是out of memory，最后含泪改成8.截上图的时候还没到out of memory那一步，因此--batch-size还是32）哎呦，标的很准，可是，由于标签是中文，显示乱码“？
复制链接

扫一扫

专栏目录