AHC
文章平均质量分 86
安徽征信
introversi0n
人生走的每一步,都算数
展开
-
金融OCR领域实习日志(一)——OCR技术从0到1全面调研
paddle ocr和cnocr,两者都能实现商业化精准度。其中cnocr执行速度快,速度略快于paddle ocr识别效果比肩paddle ocr,但paddle ocr模型补充训练方便某些场景下,如小图片且对速度要求较高可以尝试使用chinese_lite ocr.此外由部分stackoverflow用户反馈可知paddle和Tesseract的区别如下数据来源区别:Tesseract对印刷体扫描文档效果更好,paddle更适用于手写体等场景,但二者都支持训练。原创 2024-01-24 17:23:28 · 980 阅读 · 0 评论 -
金融OCR领域实习日志(二)——四种OCR模型效果测试(附图)
表格扫描件:效果一切良好发票实拍:有部分模糊文字识别不清,图片太糊了发票扫描件:效果良好,但是特殊字符无法识别,后续补充训练可以解决效果太差不试了比起paddle中文模型,有较大差距表格问题较小,但比如”牡“丹识别成了”社“丹发票比较模糊,问题很多,比如联合识别成联音,公司识别成公碍等错误特殊字符也同paddle一样无法识别,识别成了8,不过可以补充训练中文识别一团浆糊,完全不能用。原创 2024-01-25 16:14:31 · 889 阅读 · 0 评论