PaddleOCR —— 训练数据准备

最新推荐文章于 2024-08-20 10:09:44 发布

只会git clone的程序员

最新推荐文章于 2024-08-20 10:09:44 发布

阅读量704

点赞数 2

分类专栏： # OCR 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37668436/article/details/109486976

版权

OCR 专栏收录该内容

10 篇文章 3 订阅

订阅专栏

数据生成

数据生成代码地址：
https://github.com/oh-my-ocr/text_renderer

垂直数据生成地址：
https://github.com/zcswdt/Color_OCR_image_generator/blob/c2a7138be2107b3b3736b76badf5c012c6befe0c/OCR_image_generator.py#L340

将竖直生成加入textrender

代码地址：
https://github.com/xmy0916/textrender
在textrender代码基础上加入竖直文本数据的生成：
在这里插入图片描述

中文语料下载

官网下载地址（不建议官网下载，速度太慢了…）：

https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
链接：https://pan.baidu.com/s/1OovD6F1Awyi8oErH_FY1kQ
提取码：2bfz

文件说明：

zh_wiki.py: 繁体字与简体字对应的字典，代码来源:
https://github.com/skydark/nstools/blob/master/zhtools/zh_wiki.py
langconv.py: 繁体字与简体字转换的方法，代码来源: https://github.com/skydark/nstools/blob/master/zhtools/langconv.py
chinese_corpus_preprocessing: 中文语料预处理方法，代码来源: 《python自然语言处理实战核心技术与算法》涂铭、刘祥、刘树春著
data:
reduce_zhiwiki.txt: 进行了繁体转换为简体以及jieba分词后的语料数据集
zhwiki-latest-pages-articles.xml.bz2: 未经处理的维基百科中文网页语料库

从csdn资源里下载的，我觉得学习资料这个东西吧，就免费共享就好了，csdn的资源还要积分下载，免费贡献给大家~

只会git clone的程序员

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

只会git clone的程序员 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。