蚂蚁自研移动端 xNN-OCR 技术演进与能力开放

最新推荐文章于 2022-05-18 17:25:48 发布

阿里巴巴终端技术

最新推荐文章于 2022-05-18 17:25:48 发布

阅读量2.7k

点赞数

文章标签：人工智能移动开发 android ios ocr

本文链接：https://blog.csdn.net/qq_32198115/article/details/122175644

版权

作者：张伟辰(璟铭)

随着手机性能的不断提升，在手机端进行复杂的AI计算已经成为各大厂商的核心发展方向，在此之上产生了大量的端智能应用。这种端侧AI计算的模式，使得大量牵涉时效性、成本和隐私考虑的场景实现变成了可能。在这里，我们以广泛使用的文字识别技术（OCR）为例，介绍一下蚂蚁自研移动端OCR技术（xNN-OCR）。

背景介绍

文字识别技术是计算机视觉领域中历史悠久、应用广泛的一个研究方向，特别是随着深度学习技术的发展，其能力空间不断扩大。相比云端计算方式，移动端OCR算法可在离线情况下完成图片中文字提取，对于实时性、隐私保护和成本要求高的场景，有着很大的应用价值。另一方面，基于深度学习的OCR模型越来越复杂，通常具有几十M的参数量以及几百GFlops的计算量，如何在手机有限的计算资源下，完成OCR模型运行是一个极具挑战的任务。在支付宝中，我们结合自研的端侧推理引擎xNN和应用算法的深度优化，研发了又小、又快、又准的xNN-OCR技术产品，从2018年上线到银行卡号识别场景开始，陆续支撑了数十个核心业务的技术升级。本文我们将给大家完整的展开xNN-OCR的技术演进和能力开放情况。