OCR标注方法

文章详细阐述了标注工作在AI模型训练中的重要性,强调了正确的标注要求能避免训练不收敛的问题。标注规范包括:文本框应紧贴内容,遵循语意或阅读顺序,处理模糊、变形字和遮挡字有明确规则,确保数据质量以提高模型效果。
摘要由CSDN通过智能技术生成

虽然说标注工作不是由算法工程师负责的,但是如何标注,标注要求却是由算法工程师指导标注人员去实施的,如果标注工作人员标注的数据有问题,就会出现模型训练不收敛的问题,导致很多问题的出现,所以标注要求很重要,在一开始的时候就要整理好标注要求,讲清楚标注要求,这样就能减少标注工作的反复无用功。

接下来就说一下具体的标注规范:

框的规范

  1. 同一行数据,最好标在一个框里。

  1. 根据目标的形态,灵活选取横向、竖向和倾斜的方式,将文本按照四点标注的画法框选

  1. 框要贴合文本,不要有过多的空余区域

  1. 斜文本也要尽力贴合。

像这种弯曲的文本,就不要自觉聪明的框成这样,完全就是错误的标注方式。

而是应该让框更加贴合文本去框。

标注顺序

1、有语意时:标注框的四点顺序要按照文本语意的顺序去标。

2、无语意时:按照阅读顺序横向文本-从左至右、竖向文本-从上至下、倾斜文本-从上至下的顺序标矩形的四个点。

模糊字和变形字

1、模糊不清的文本需要舍弃(模糊字体不要联想上下文去看)

2、只要字体轮廓整体清晰,部分笔画模糊转写了可以给到合格

3、模糊/变形字的空格代替使用规则

(1)正常文本中模糊字变形字3个(即≥3个),则整行舍弃

(2)正常文本中间出现的1个(连续2个或连续3个)模糊变形字体,均只用一个空格代替

(3)句首/尾模糊字/舍弃字,可以单独框选舍弃,可以用空格代替

(4)可当做模糊和变形字处理,用空格代替的其他情况:重叠导致无法识别的文字、不符合

转写规则的遮挡缺失文字等

遮挡字

1、未被遮挡字需要转写,遮挡处空格代替,不能整行舍弃

2、遮挡宽度及画框规则

(1)被遮挡处距离未达到3个(即<3)个字符时,未被遮挡的部分必须整行一起框选。如图2框

法错误

(2)被遮挡处距离达到3个(≥3)个字符时,未被遮挡的部分必须分框转写。

(3)纯英文文本中,被遮挡部分间隔以最宽的字母的为参照

(4)中英文混合文本,被遮挡部分间隔以最宽的汉字为参照

3、文字缺失

(1) ①~③三点规则,图片边缘,图片中间均适用

(2)①剩余部分≥1/2,且人为客观可识别的文字正常框选转写;

(3) 剩余部分≥1/2,但人为客观无法识别的文字或一些简单的文字,少了一横、一竖、一撇

or截断文字有歧义必须舍弃;

(4)②剩余部分<1/2,且文字很小,舍弃框难画时,可不处理(舍弃可过);剩余部分<1/2,

但)

(5)③剩余部分<1/5,的较大文字,可不处理

(6)④左右/上下结构的文字,存在遮盖情况转写规则:

存在遮盖,但不影响整字识别,必须整字转写;

存在遮盖,影响整字识别,未被遮盖的一半不能识别为一个字时,必须整字舍弃;

存在遮盖,影响整字识别,未被遮盖的一半能识别为一个字,但被遮盖的一半,剩余部分≥1/5

时,必须整字舍弃;

存在遮盖,影响整字识别,未被遮盖的一半能识别为一个字,且被遮盖的一半,剩余部分<1/5

时,必须转写该半文字,剩余部分可舍弃,可不处理

基于深度学习的OCR(Optical Character Recognition,光学字符识别)方法在近年来取得了显著的突破和应用。以下是一个简要的介绍: 深度学习是一种机器学习的分支,通过构建深层神经网络模型,可以自动从数据中学习特征,并进行准确的分类和识别。在OCR领域,深度学习方法通过大量标注的字符图像数据进行训练,从而实现高效准确的数字、字母和符号识别。 基于深度学习的OCR方法通常包括以下几个关键步骤: 1. 数据准备:收集大量的字符图像数据,并进行标注,即将每个字符与其对应的标签关联起来。这些数据可以来自于现有的字符数据集,也可以通过手工标注或生成器生成。 2. 网络架构设计:选择合适的深度神经网络架构用于OCR任务。常用的架构包括卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制(Attention)。这些网络模型可以根据具体任务进行组合和调整。 3. 特征提取:使用预训练的深度神经网络模型来提取字符图像的特征表示。对于OCR任务,通常会使用卷积层提取图像的空间特征,然后通过全连接层进行分类。 4. 训练与优化:将准备好的字符图像数据输入到网络中进行训练。通过反向传播算法,不断调整网络参数以最小化预测结果与真实标签之间的误差。常用的优化算法包括随机梯度下降(SGD)和自适应矩估计(Adam)等。 5. 预测与后处理:使用训练好的深度学习模型进行字符识别。根据模型输出的概率分布或预测结果,可以进行后处理操作,如基于语言模型的纠错和字符连接等。 基于深度学习的OCR方法具有较高的识别准确性和鲁棒性,尤其在面对复杂的场景和多样化的字符样式时表现突出。然而,深度学习方法需要大量的标注数据和计算资源,并且对于不同语种和字体样式的OCR任务需要进行适当的调整和优化。 总结来说,基于深度学习的OCR方法是一种非常有效和先进的字符识别技术,正在得到广泛应用,并且在不断发展和改进中。 希望这个简要的介绍对您有所帮助。如果您有任何进一步的问题,请随时提问。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序小K

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值