干货 | OCR技术在携程业务中的应用-CSDN博客

本文链接：https://blog.csdn.net/Nx2XJBUr4Jg8ef80l1K/article/details/89325116

本文介绍了OCR技术在携程业务中的应用，包括资质审核、辅助录入等方面，主要涉及文字检测和识别。针对受控和非受控场景，分别采用CTPN和TextSnake模型进行文本检测，结合CNN+LSTM+CTC/Seq2Seq结构进行文本识别，目前精度可达85%。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者简介

袁秋龙，携程度假大数据AI研发团队实习生，专注于计算机视觉的研究和应用。在实习期间致力于度假图像智能化工作，OCR问题为实习期主要做的研究。

一、概述

计算机视觉是一门研究如何让计算机“看”的科学。更进一步的说，就是使用摄像机和计算机代替人眼，让计算机像人眼一样具备对目标事物进行识别，跟踪和分析的能力。

以携程业务为例，在供应商资质鉴定，商家产品上传，产品展示等多个环节都涉及到计算机视觉技术的应用，其中包括文字识别（Optical Character Recognition，OCR）/场景文字识别（SceneText Recognition，STR），图像质量评价，智能裁剪和目标检测等。

OCR在携程业务中主要起到两方面作用。一方面是审核校验，如供应商的资质审核，对营业执照和经营许可证的信息的校验，对包含敏感词汇的产品进行自动筛选过滤等；另一方面是辅助录入，如辅助运营录入营业执照，经营许可证等信息。

本文主要介绍文字识别在携程业务中相关应用及对应解决方案。

二、OCR

OCR技术由两方面组成，分别为文字的检测和文字内容的识别，如图1所示。

其中，文字检测主要有基于笔划特征的方法（Stroke Width Transform，SWT）[1]、基于稳定区域（Maximally Stable Extremal Region，MSER）[2]的方法和基于全卷积网络（FullyConvolutional Networks，FCN）和循环神经网络（RNN）相结合的方法[3]，由于基于神经网络的方法对复杂背景具有较强的鲁棒性，目前已经成为文字检测的主流方法。

而文字识别则主要分为基于单个字符的方法和基于序列的识别方法，其中基于单个字符的方法有基于传统DPM[4]特征和基于卷积网络[5]提取的特征，基于序列的则有CTC（Connectionist Temporal Classification）[6,7]和Seq2Seq[8]两种模式。

640?wx_fmt=png