腾讯数平精准推荐(Tencent-DPPR)团队一直致力于实时精准推荐、海量大数据挖掘等领域的技术研发与落地。
在社交广告推荐领域,团队自研的深度在线点击率预估算法及全流程实时推荐系统,持续多年提升社交广告点击率。图像作为当前社交广告最重要的展示形式,文字识别、物体识别等图像理解技术能够有效加深对广告特征、广告主题、广告信息、用户偏好等方面的理解,令广告推荐业务更加精准。
作为理解广告图像的基石技术,OCR原意指光学字符识别(Optical Character Recognition),现泛指图像文字识别,即从图像视频中自动识别文字内容,属于AI计算机视觉的一个重要分支。移动互联网的爆炸式增长以及深度学习技术的普及,分别从业务需求与技术支撑两方面,进一步推动OCR领域发展。OCR技术可深入服务于广告推荐系统的图像内容提取、广告素材审核、广告图像创意、用户理解,等等。除广告业务外,OCR亦可应用于UGC图片视频过滤、医学影像识别、证件识别、文档识别、街景路牌识别,等等。
腾讯数平精准推荐团队在OCR领域深耕细作多年,自研的基于深度学习方法的文本检测与识别技术多次在国际权威ICDAR竞赛数据集上刷新世界纪录,特别是在2017年举办的第14届ICDAR官方竞赛中,斩获了“COCO-TEXT”和“医学文献图像”等极具挑战任务的4项冠军,再次证明了Tencent-DPPR团队在OCR领域的技术研发能力。业内主流OCR技术,通常分为文字检测与文字识别2个模块:通过检测算法定位到文本行,后通过识别算法阅读出文本行内容。本文将介绍Tencent-DPPR团队的文字识别算法。
一.相关工作
OCR识别模块属于多分类问题,对识别效果影响大的因素包括:复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本行复杂版式、检测框字符残缺,等等。对比英文识别,中文OCR具备更强挑战。例如英文数字可建模为62分类问题,若要识别中文10000个汉字,则需建模为10000分类问题。此外,中文的笔画复杂度、形近字数量、简繁体数量、版式排列、词语组合数量,都比纯英文识别挑战更大。
社交广告图片的部分挑战场景如图1所示:
(图1)
社交广告图片中有挑战的文本行如图2所示: