
OCR
文章平均质量分 69
OCR(Optical Character Recognition,光学字符识别)是计算机视觉重要方向之一。传统定义的OCR一般面向扫描文档类对象,现在我们常说的OCR一般指场景文字识别(Scene Text Recognition,STR),主要面向自然场景。
ViatorSun
深度学习算法工程师,Github开源世界贡献者,专注于『计算机视觉、多模态大模型』领域
展开
-
「PaddleOCR」TIA文字识别数据增强
对于OCR识别任务来说,不同于常规的目标检测数据增强,显示场景中的文字样式多种多样,虽然检测+校正可以将文字区域拉到一个相对合理的区域,但是更加多样化的识别样本,还是很有需求的。实验证明,使用TIA数据增广,可以帮助文本识别模型的精度在一个极高的baseline上面进一步提升0.9%。其中 WarpMLS.py 脚本内容如下。原创 2024-07-12 11:09:52 · 602 阅读 · 0 评论 -
「PaddleOCR」 模型应用优化流程
PaddleOCR 算是OCR算法里面较好用的,支持的内容多,而且社区维护的好(手把手教你,生怕你学不会),因此在国内常采用。目前已经更新到 2.8版本了,功能更加丰富、强大;目前支持通用OCR、表格识别、图片信息提取以及文档场景信息提取,基本覆盖了常用的场景首先下载模型代码需要视频课程的可以看。原创 2024-07-11 18:27:27 · 1829 阅读 · 0 评论