OCR/STR生僻字数据训练 | PaddleOCR的垂类Fine-tune（2）

最新推荐文章于 2024-03-04 16:10:14 发布

訢詡

最新推荐文章于 2024-03-04 16:10:14 发布

阅读量1.4k

点赞数 1

分类专栏：深度学习NLP方向文章标签：深度学习 OCR STR 生僻字识别

本文链接：https://blog.csdn.net/Andrwin/article/details/120173126

版权

本文档介绍了如何使用PaddleOCR进行生僻字OCR和STR的垂直领域微调，包括项目背景、数据生成、配置训练参数以及训练过程。通过调整配置文件，利用自定义生僻字数据集进行训练，以提高模型对生僻字的识别能力。

摘要由CSDN通过智能技术生成

项目背景

paddleOCR开源的权重识别的很好，但是不覆盖生僻字二级、三级字库，碰到个生僻字就翻车。研究一下发现paddleOCR提供了完整的训练和预测接口。

项目地址：https://github.com/PaddlePaddle/PaddleOCR

根据这个语焉不详的说明文档，我们开始训练起来吧~

说明文档：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.3/doc/doc_ch/recognition.md

数据生成

数据集请根据上一篇的生字僻字库制作：https://blog.csdn.net/Andrwin/article/details/120162193

我的本地环境是UBuntu18.04 RTX2080(8G) 32GBRAM 256SSD 2THDD Paddle最新版

我把数据集生成在HDD里面，然后挂载软连接到项目目录

比如我的数据集文件夹在：

/media/nvidia/disk/
在这个文件夹里面

train_data/

        rec/
            test/
                xxxxx.jpg
                xxxxx.jpg
            train/
                xxxxx.jpg
                xxxxx.jpg

最低0.47元/天解锁文章

訢詡

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录