PaddleOCR —— 训练数据准备

数据生成

数据生成代码地址:
https://github.com/oh-my-ocr/text_renderer

垂直数据生成地址:
https://github.com/zcswdt/Color_OCR_image_generator/blob/c2a7138be2107b3b3736b76badf5c012c6befe0c/OCR_image_generator.py#L340

将竖直生成加入textrender

代码地址:
https://github.com/xmy0916/textrender
在textrender代码基础上加入竖直文本数据的生成:
在这里插入图片描述

中文语料下载

官网下载地址(不建议官网下载,速度太慢了…):

https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
链接:https://pan.baidu.com/s/1OovD6F1Awyi8oErH_FY1kQ
提取码:2bfz

文件说明:

  • zh_wiki.py: 繁体字与简体字对应的字典,代码来源:
    https://github.com/skydark/nstools/blob/master/zhtools/zh_wiki.py
  • langconv.py: 繁体字与简体字转换的方法,代码来源: https://github.com/skydark/nstools/blob/master/zhtools/langconv.py
  • chinese_corpus_preprocessing: 中文语料预处理方法,代码来源: 《python自然语言处理实战核心技术与算法》 涂铭、刘祥、刘树春著
  • data:
    reduce_zhiwiki.txt: 进行了繁体转换为简体以及jieba分词后的语料数据集
    zhwiki-latest-pages-articles.xml.bz2: 未经处理的维基百科中文网页语料库

从csdn资源里下载的,我觉得学习资料这个东西吧,就免费共享就好了,csdn的资源还要积分下载,免费贡献给大家~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

只会git clone的程序员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值