文字检测
本节以icdar2015数据集为例,介绍PaddleOCR中检测模型的训练、评估与测试。
数据准备
icdar2015数据集可以从官网下载到,首次下载需注册。
将下载到的数据集解压到工作目录下,假设解压在 PaddleOCR/train_data/ 下。另外,PaddleOCR将零散的标注文件整理成单独的标注文件
,您可以通过wget的方式进行下载。
# 在PaddleOCR路径下
cdPaddleOCR/
wget-P./train_data/https://paddleocr.bj.bcebos.com/dataset/train_icdar2015_label.txt
wget-P./train_data/https://paddleocr.bj.bcebos.com/dataset/test_icdar2015_label.txt
解压数据集和下载标注文件后,PaddleOCR/train_data/ 有两个文件夹和两个文件,分别是:
/PaddleOCR/train_data/icdar2015/text_localization/
└─icdar_c4_train_imgs/icdar数据集的训练数据
└─ch4_test_images/icdar数据集的测试数据
└─train_icdar2015_label.txt icdar数据集的训练标注
└─test_icdar2015_label.txt icdar数据集的测试标注
提供的标注文件格式如下,中间用”\t”分隔:
" 图像文件名 json.dumps编码的图像标注信息"
ch4_test_images/img_61.jpg[{"trans