宜信OCR技术探索与实践|宜信技术沙龙第12期
导读:随着人工智能的热度上升,图像识别这一分领域也渐渐被人们所关注。在公司的业务中,有很多扫描、拍照单据、凭证等进行识别的需求。为了帮助业务实现这些图片文档的识别和结构化,我们进行了一系列的实践和探索,最终确定了深度学习的文字检测和识别模型,作为主要的实现手段,从而满足了业务上的需求。实践过程中,我们遇到过一系列的问题和难点,最终都一一解决,本次分享我们将结合目前的业务需求,说说我们在探索中遇到的痛点和难点,和识别技术中的一些技术细节。
分享大纲:
1、业务上的诉求和痛点;
2、OCR技术的应用场景,以及对业务的重要性;
3、宜信OCR技术解决方案:
——产品能力
——未来规划
4、OCR技术的的发展和演进;
5、主流算法科普:CTPN、EAST、PSENet;CRNN、Attention OCR;
6、OCR技术实践:样本生成、算法改造、论文的实现等。
PPT下载链接: https://pan.baidu.com/s/1XD0hVF_-VGMVbnlStTR2aw 密码: lnf8
分享实录
一、OCR概述
1.1 OCR技术演进
-
传统图像,冈萨雷斯的图像处理。
-
信号处理、频域分析以及各类算法:SIFT、HOG、HOUGH、Harris、Canny…都很赞。
-
从2016年以后业界基本上都已经转向深度了,因为效果真的特别好。
1.2 OCR技术商业服务
-
身份证卡证类相对容易些,但是要做到复杂场景的,也不是那么容易。
-
发票、业务单据相对复杂,除了识别,更重要的是版面分析。
-
最近表格识别比较火,各家都在努力实现,微软的开放tablebank数据集
-
移动端backboneMobileNet,或者是tesseract+opencv
二、我们的业务场景
2.1 业务需求
满足业务是第一需要,不同于大厂,对外服务API