基于PaddleOCR的多视角集装箱箱号检测识别

最新推荐文章于 2024-05-08 15:43:29 发布

icwx_7550592

最新推荐文章于 2024-05-08 15:43:29 发布

阅读量178

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/2301_77550592/article/details/131608114

版权

该项目利用PaddleOCR进行集装箱箱号的检测和识别，通过训练检测和识别模型，实现对3003张图像的箱号识别。数据集按比例分为训练集和验证集，模型选用PP-OCRv3，经过微调，检测模型在验证集上达到90.96%的hmean，识别模型在验证集上达到91.11%的精度。

摘要由CSDN通过智能技术生成

一、项目介绍

集装箱号是指装运出口货物集装箱的箱号，填写托运单时必填此项。标准箱号构成基本概念：采用ISO6346（1995）标准

标准集装箱箱号由11位编码组成，如：CBHU 123456 7，包括三个部分：

第一部分由4位英文字母组成。前三位代码主要说明箱主、经营人，第四位代码说明集装箱的类型。列如CBHU 开头的标准集装箱是表明箱主和经营人为中远集运
第二部分由6位数字组成。是箱体注册码，用于一个集装箱箱体持有的唯一标识
第三部分为校验码由前4位字母和6位数字经过校验规则运算得到，用于识别在校验时是否发生错误。即第11位编号

本教程基于PaddleOCR进行集装箱箱号检测识别任务，使用少量数据分别训练检测、识别模型，最后将他们串联在一起实现集装箱箱号检测识别的任务

效果展示：

二、环境准备

首先点击左侧套件选择PaddleOCR 进行下载。

三、数据集介绍

本教程所使用的集装箱箱号数据集，该数据包含3003张分辨率为1920×1080的集装箱图像

1、PaddleOCR检测模型训练标注规则如下，中间用"\t"分隔：

" 图像文件名                    json.dumps编码的图像标注信息"
ch4_test_images/img_61.jpg    [{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]]}, {...}]

其中json.dumps编码前的图像标注信息是包含多个字典的list，字典中的 points 表示文本框的四个点的坐标(x, y)，从左上角的点开始顺时针排列。 transcription 表示当前文本框的文字，当其内容为“###”时，表示该文本框无效，在训练时会跳过。

2、PaddleOCR识别模型训练标注规则如下，中间用"\t"分隔：

" 图像文件名                 图像标注信息 "

train_data/rec/train/word_001.jpg   简单可依赖
train_data/rec/train/word_002.jpg   用科技让复杂的世界更简单

四、数据整理

4.1 检测模型所需数据准备

将数据集3000张图片按2:1划分成训练集和验证集，运行以下代码

from tqdm import tqdm
finename = "all_label.txt"
f = open(finename)
lines = f.readlines() 
t = open('det_train_label.txt','w')
v = open('det_eval_label.txt','w')
count = 0
for line in tqdm(lines):
    if count < 2000:
        t.writelines(line)
        count += 1
    else:
        v.writelines(line)
f.close()
t.close()
v.close()

4.2 识别模型所需数据准备

我们根据检测部分的注释，裁剪数据集尽可能只包含文字部分图片作为识别的数据，运行以下代码

from PIL import Image
import json
from tqdm import tqdm
import os
import numpy as np
import cv2
import math

from PIL import Image, ImageDraw

class Rotate(object):

    def __init__(self, image: Image.Image, coordinate):
        self.image = image.convert('RGB')
        self.coordinate = coordinate
        self.xy = [tuple(self.coordinate[k]) for k in ['left_top', 'right_top', 'right_bottom', 'left_bottom']]
        self._mask = None
        self.image.putalpha(self.mask)

    @property
    def mask(self):
        if not self._mask:
            mask = Image.new('L', self.image.size, 0)
            draw = ImageDraw.Draw(mask, 'L')
            draw.polygon(self.xy, f