目录:
作者和相关链接
- 方法概括
- 创新点和贡献
- 方法细节
- 实验结果
- 问题讨论
- 总结与收获点
- 作者补充信息
- 参考文献作者和相关链接
- 作者和相关链接
- 论文下载
- 作者:白翔
方法概括
- 利用模板对象素进行特征提取(主要包括对称性特征以及LBP表面特征)
- 通过上述提取的特征训练分类哭提取文本线象素
- 利用提取的正样本象素聚成块,再利用距离以及角度规则连接块生成文本线,最后生成候选区
创新点和贡献
- 利用象素级别的特征提取文本线从而提取文本候选框,是一种较为新颖的方法
- 作为CVPR2015的论文,F-measure达到.08已经十分厉害
方法细节
- Symmetry-Based Text Line proposals
- 特征提取
如上图所述,左边为一个尺度为S的模板,实际为一个边长为4S的正方形。将正方形分成高为S的四分长方形,分别为RT,RB,RMB,RMB,基中RM由RMT和RMB组成
- 对称特征
以像素点(x,y)为中心,构造尺度为S的模板,然后通过模板内长方形之间的相似度获得对称特征以表示该象素点。具体如下:
模板中央部分对应的是文字部分,故而RMT和RMB应该具有较大相似应,上述公式正是用来描述RMT和RMB的相似性
同理,模板中的RT和RB应该对应的是非文字部分,故而其与文字部分的RM部分相似度较大,上述公式用来描述RMT与RT的相似度,以及RMB与RB的相似度
据此可以知道,如果象素(x,y)是文本线,那么 (1)式的值应尽量大,而(2)(3)的值则会相对小
另外,上述用来度量相似大的方法是利用卡方距离(怎么计算有待学习)
- 外表特征
除了上述对称特之外 ,由于文字部分的特殊纹理特征,对模板的RM部分提取LBP特征,作为象素点的外表特征
那么,上述对称特征和外表特征又是怎么提取的呢?
对于图片,我们将其转换为LAB图像 ,并分别以32bins的规格提取其直方图特征。此外,我们还要提取纹理特征以及16bins的梯度特征。
对于这五个通道,我们分别计算之前的三个模板内矩形卡方距离,会得出十五个值。也就是说,对称特征是一个十五维的向量。
而对于外表特征,我们从中提取出59个bins,也就是59维的特征,这样的话串联起来就形成一个74维的特征向量
- 2对称轴检测
事实上,如果检测出了文本线,根据已有的尺度,就不难检测出文本候选框。这一步的目的正是为了检测出文本线,从而得到候选框。在ICDAR2013和2015的ground truth中,只有boundingbox,我们只需通过简单的计算,便能获得其中的文本线。
- 训练样本的构建
根本上面的一部,我们可以得出文本线。那么什么是正样本呢?就是文本线上的所有像素以及与文本像素上的像素距离不大于2的像素的组合。那何为负样本?就是距离与 文本线像素大于5的像素。按照这个标准我们各取45K个正负像素点,但是为了保持一定的正负样本比例,正样本只在一个尺度下进行特征的采集,而负样本则是在24个尺 度下计算其特征而作为特征点
- 利用分类器进行训练与测试
利用随机森林作为强分类器进行训练,在测试的时候也是在多尺度下进行测试。另外,由于对称特征以及外表特征维度的不同,使得在随机森林的训练当中其权重有所偏 差。
- 3文本候选区域生成
通过上一步,就会生成多尺度对应的文本线像素预测图。由于无法通过简单的训练+预测就完全寻找出准确的文本线,因此需要对上面处理的结果进行处理。
首先,对距离小于3的预测文本线像素进行聚合,这样的话就会形成很多fragments。我们可以把这些fragments当作顶点,然后通过两两之间的角度关系以及距离关系对其 进行结合,然后整个图结构的各个连通分量将构成各个文字候选区域文本线估计。
角度差限制:实际上就是分别计算两个fragements各个像素角度的平均值(是梯度吗?),然后若相差在十六分之派以内,则连接
距离限制:即两个fragments像素的最短距离要小于两者之间最大的尺度,若如此则相连
- 4错误正样本移除
利用CNN训练在字符以及字符串级别的分类器,然后进行过滤。
- Experiments
- Text Detection Performance
- 对称特征
以像素点(x,y)为中心,构造尺度为S的模板,然后通过模板内长方形之间的相似度获得对称特征以表示该象素点。具体如下:
模板中央部分对应的是文字部分,故而RMT和RMB应该具有较大相似应,上述公式正是用来描述RMT和RMB的相似性
同理,模板中的RT和RB应该对应的是非文字部分,故而其与文字部分的RM部分相似度较大,上述公式用来描述RMT与RT的相似度,以及RMB与RB的相似度
据此可以知道,如果象素(x,y)是文本线,那么 (1)式的值应尽量大,而(2)(3)的值则会相对小
另外,上述用来度量相似大的方法是利用卡方距离(怎么计算有待学习)
- 外表特征
除了上述对称特之外 ,由于文字部分的特殊纹理特征,对模板的RM部分提取LBP特征,作为象素点的外表特征
- 2对称轴检测
事实上,如果检测出了文本线,根据已有的尺度,就不难检测出文本候选框。这一步的目的正是为了检测出文本线,从而得到候选框。在ICDAR2013和2015的ground truth中,只有boundingbox,我们只需通过简单的计算,便能获得其中的文本线。
- 训练样本的构建
根本上面的一部,我们可以得出文本线。那么什么是正样本呢?就是文本线上的所有像素以及与文本像素上的像素距离不大于2的像素的组合。那何为负样本?就是距离与 文本线像素大于5的像素。按照这个标准我们各取45K个正负像素点,但是为了保持一定的正负样本比例,正样本只在一个尺度下进行特征的采集,而负样本则是在24个尺 度下计算其特征而作为特征点
- 利用分类器进行训练与测试
利用随机森林作为强分类器进行训练,在测试的时候也是在多尺度下进行测试。另外,由于对称特征以及外表特征维度的不同,使得在随机森林的训练当中其权重有所偏 差。
- 3文本候选区域生成
通过上一步,就会生成多尺度对应的文本线像素预测图。由于无法通过简单的训练+预测就完全寻找出准确的文本线,因此需要对上面处理的结果进行处理。
- 4错误正样本移除
- Experiments
- Text Detection Performance
- Text Detection Performance
- 2 Character Detection Rate
- 3Applicability to Texts in Different Languages
- 4 Contribution of Different Types of Features