用分类处理外文识别

猫猫与橙子

已于 2022-02-21 09:00:19 修改

阅读量803

点赞数

分类专栏：分类 ocr 文章标签：分类文字识别

于 2022-01-21 10:01:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22764813/article/details/122614765

版权

ocr 同时被 2 个专栏收录

37 篇文章

订阅专栏

3 篇文章

订阅专栏

目的：使用分类的方法去处理标注有英文注解的外文，在无需理解外文情况下，识别出外国文字；

处理难点：世界上各国语言丰富多样，无法掌握各个国家的语言文字；在有英文注解的情况下，使用分类直接处理外文文字；这种处理方法只限于外文类别有限的情况；

识别图形：

处理流程：

1.收集所有需要识别的外文种类；（目前本人收集了74类）

2.将语言相同，英文字形相近的图片合并为1类；

如下面标红的类别，有助于减少分类网络fc层的参数；

3.以数量最多的那一类别的数量作为目标，将其他类别使用各种方法扩充数据，从而使样本量均衡；

扩充要点：

1.需要在训练样本中添加场景数据（最终测试时场景文字），这个不过多解释；

2.扣取目标文字时，在不产生歧义的情况下，可以多保留一些背景用于数据增强；

原始标签数据：

扩充数据，扣取数据样本时随机增加宽和高：

这样做的目的是因为：背景对于前景影响比较大，文本检测结果通常会出现一些错误，导致检测的文本边框无法很好的贴合到文本边框，如果测试样本中出现了训练样本中没有出现过的背景，那对于分类结果影响比较大，这个大家可以整理数据自己做一些对比测试；最简单的对比测试方法就是将测试结果不准确的样本紧贴文本边框扣取后，再送入模型做测试，分类不正确的样本此时可能会分类正确；

在正负样本选取时，要注意：

正样本是与GT的IOU值大于阈值时的取值，负样本是小于阈值的，其他的则把它去除即可，总之，正负样本都是针对于程序生成的框框而言，而非GT数据。（原文链接：https://blog.csdn.net/qq_26413875/article/details/100184308）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

猫猫与橙子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。