文字抖动_CCAI |白翔:经典算法与深度学习相结合,解决不规则文字处理问题

白翔教授在CCAI 2019大会上分享了如何将经典算法与深度学习结合,解决不规则文字识别、定位和检测的问题。他的ASTER模型通过STN矫正变形文字,提高识别准确性;设计的网络能端到端检测和识别曲形、直线或斜角文字,用空间换取时间实现特征共享;TextField识别方法利用DeepFlux算法,精确描述文字位置和上下文关系,展现传统算法与深度学习的融合优势。
摘要由CSDN通过智能技术生成
4fb11b83aec75995a5da1ecea6ff26b8.png

点击文末“了解更多”,获取CCAI 2019更多信息

CCAI 2019 中国人工智能大会

2019年中国人工智能大会(Chinese Congress on Artificial Intelligence 2019,简称“CCAI 2019”)将于在9月21日-22日在青岛胶州召开。白翔教授将出席大会并担任人工智能青年论坛共同主席。

白翔,华中科技大学电子信息与通信学院教授,博士生导师,国家防伪工程中心副主任。担任中国计算机学会计算机视觉专委会(CCF-CV)常务委员,中国图象图形学学会理事,同时担任国际期刊编委或客座编辑。主要从事计算机视觉与模式识别,具体包括目标识别、形状分析、自然场景文字识别及智能交通系统等领域的研究。不规则文字检测和识别一直是文字识别方向研究的难点,它在自然场景图像中的文字识别具有重要的应用。白翔教授在不规则文字的识别、定位和检测三个研究方向上有着丰富经验,他将经典算法与深度学习相结合,获得了惊人的效果。

a0c199cdf877d138f4cf635cad542324.png

不规则文字识别

工业界中常用的序列识别模型SRN(Sequence Recognition Network)是不能处理文字发生形变或者弯曲的情况,会导致各类识别错误。针对不规则文字识别问题,白翔教授团队提出了ASTER模型,解决的了对于场景里有形变或方向变化的文字识别问题。ASTER是一个简单且实用的方法,就是先将有形变的文字矫正成规则的文字,再使用SRN进行识别。可以认为ASTER的网络由两部分组成,前面部分是空间变换网络STN (Spatial Transform Network)做矫正,后面是SRN网络做识别,形成任务共享。在加入了STN以后,识别器的性能十分有竞争力,在不规则文字测试集上有很大提升。

白翔教授将ASTER算法进行的应用测试,发现该算法对文字定位十分准确,尤其在英文的识别上十分稳定。

不规则文字定位

对于不规则文字定位问题,白翔教授团队设计了一个网络,能完全端到端识别,又同时能检测曲形、直线或者斜角的文字。但检测任务是在图像水平上做处理,识别任务是在文本区域水平做处理,两个任务之间是有一定冲突的,导致在设计网络做这两个任务的时候非常困难,需要很好的预训练能力,预训练后的参数调节也十分困难,网络适用性不好。为了有效的将检测和识别做到特征共享,白翔提出了一个巧妙的方法:用空间换取时间,用字符级别的标注,换取训练上的方便。要获得每一个字符的中心位置,把它也作为一个分割问题去考虑,并在分割的同时得到字符的类别,这个分割问题也变成多分类问题。在英文识别时有阿拉伯数字0-9和字母A-Z共36种不同的类别。每一类都产生相应的字符对应位置,外加一个整体,这样形成一个多任务,可以完全得到特征上的共享。

本算法能把弯曲的文字甚至是其中包含的水平文字,同时得到其位置和包围盒。还有一个有意思的现象是,当把识别的模块删除后可以发现检测的准确率会降低,说明识别模块对检测是有帮助的。

90cdb52cdbe25d55396e9322d0fb3b7d.png

不规则文字检测

针对不规则文字检测问题,白翔教授提出了TextField识别方法,获得了极好的效果。在这个方法中,白翔使用了他在解决骨架检测(Skeleton Detection)问题时提出的DeepFlux算法,用骨架来标定文字的位置。算法对包含文字的图片构建了一个有指向文字内部,也有指向文字外部的“场”,并进行训练。它的好处是可以通过方向性区分相近的文字,并且能更有力地描述文字之间、局部之间的连接关系和局部的对称性关系。如果用FCN解决这个问题,得到的文字连通性较差,有很强的抖动,平滑性差,甚至有些区域是错误的。但是使用的DeepFlux方法,精度和平滑度都非常好,而且可以更好地去描述物体的上下文,时间复杂度也不错。通过这个例子可以看出,将传统的算法与现有的深度学习相结合,可以焕发奇光异彩。

大 会 相 关

欲了解更多信息,可通过如下方式联系我们:

商务合作于老师微信:138-1148-4695
票务咨询刘老师微信:189-1006-4547
大会信息咨询平平手机:185-0057-0473微信:185-1086-6934
企业服务专员王老师手机:170-9008-6234微信:dalonsmary1010

点击文末“了解更多”,获取CCAI 2019更多信息

50d3f022a2b1f5fe6ad2cd314793dcfe.png

点击文末“了解更多”,获取CCAI 2019更多信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值