最近做一个计算机视觉的项目,要将其中复杂场景中的文本识别率从92%进一步提升,挑战很大也很有意思。边阅读一些最新的文本定位与识别的论文,边在这里记下阅读笔记与翻译内容,慢慢研究。本人英语与专业水平有限,仅供学习参考,欢迎交流,请多指教。
Reference:Real-TimeScene Text Localization and Recognition Luk´aˇsNeumann Jiˇr´ı Matas 2012 IEEE
递增计算描述子(Incrementally computable descriptors)
极值区域快速分类的关键先决条件是对区域描述子的快速计算(区域描述子是分类器使用的特征)。
正如J. Matas and K.Zimmermann. A new class of learnable detectors for categorisation. In Image Analysis, volume 3540 of LNCS, pages541–550. 2005. 论文中提到的,可以利用一种特定类型的描述子以及利用极值区域之间的包含关系来递增地计算描述子的值。
R θ−1 表示θ-1阈值下的极值区域(ERs),则ER r ∈ R θ 即在θ阈值下的极值区域 r是θ-1阈值下的极值区域与像素值为的像素的并集:
进一步假设所有在阈值u ∈ R θ-1