导
读
在计算机视觉领域,OCR是一个基础且关键的研究方向。随着学术界的不断探索和技术不断成熟,OCR也开始在互联网及其他行业逐步上线使用,应用范围也从文档识别扩展到照片分析、车牌识别,场景理解,商品识别,街景定位,票据识别等更广泛的领域。但是自然场景中的文本字符往往存在任意的形状,格式,间距,这也给学术研究的实际落地带来了不小的挑战,近年来随着渐进式扩展网络(PSENet)横空出世,以另一种思路解决了这些问题,下面我们来梳理一下该模型在票据文本检测中的应用,不妥之处敬请指正。
本文作者
谷阿幻
品览研发部
视觉算法工程师
计算机视觉与图像处理领域
两年算法经验
东北电力大学
![9be7dee8d0f05096fdf5df41a30b95f2.png](https://i-blog.csdnimg.cn/blog_migrate/cfdba2dc8adae633bc43b88fbbf5caff.png)
【PSENet】,全称Shape Robust Text Detection with Progressive Scale Expansion Network,即渐进尺度扩展的形状鲁棒文本检测网络。共有两个版本,最新的版本是2019年的CVPR接收的一篇由南京大学和face++合作的文章。
PSENet是一种基于语义分割的方法,用于检测任意方向的文本,并且采用了渐进式尺度扩展算法用来区分邻近的文本块。因此,该网络可以精确地检测任意形状的文本,并且准确地将文本实例紧密地分开。
背景介绍
近年来,文本检测领域的深度学习方法主要包括以下几类:基于候选框的文本检测(Proposal-based),基于分割的文本检测(Segmentation-based),基于两者混合的文本检测(Hybrid-based),以及其他方法的文本检测。对于基于候选框的文本检测,其