OCR数据集生成利器—TextRecognitionDataGenerator
本文主要介绍通过开源项目TextRecognitionDataGenerator生成定制OCR数据集,用于训练模型和测试模型效果,达到特定场景下识别的优化。1、现有数据集的问题在自然场景(如照片,视频)的文字OCR识别中,由于文字的字体和颜色不同,长短和布局不定,同时文字所处背景的复杂性,模型训练后在特定场景下的文字识别效果依赖于数据集是否覆盖类似风格的文字(训练-测试同分布假设)。当前虽然有不少开放的大规模OCR数据集,比如牛津大学的Synthetic Word Dataset和Sy...
原创
2020-10-31 17:16:04 ·
10389 阅读 ·
12 评论