读论文之ObjectProposals for Text Extraction in the Wild

读论文之ObjectProposals for Text Extraction in the Wild

 

——论文源代码地址:https://github.com/lluisgomez/TextProposals

 

概述:目标检测的论文很多,该论文将很多目标检测方法特定到文字检测,论文前一部分主要简单陈述了已有的目标检测方法对于文字检测的分析,后一部分提出了自己的方法,包括初始化、创建假设、排序打分,最后是评估。

 

introduction末尾部分说作者提出了一种简单的用于文字区域目标检测的选择搜索(Selective Search)策略,初始化的区域用agglomerative clustering形成一个层次,层次的每一个节点都是可能的文字区域假设。至于接着提到作者的方法和各种其他方法做evaluate,目前初了解阶段不是太感兴趣。

 

第III部分,开头便提出了整个论文方法的客观基础,很关键的就是图片文字区域的文字这种原子对象的成组聚集性,基于这种性质使用了对这种特性敏感的聚类方法。

 

具体方法分为三步:

         第一步

用最大稳定极值区域算法MaximallyStable Extremal Regions (MSER) algorithm初始化区域Regions,对于MSER可以参考【1】,源代码中使用的是opencv自带的实 现,使用的是q(i)=|Qi-Qi-|/|Qi-|这个公式,程序运行时的参数<mser_delta>就是这个公式里的delta。输出的一系列初始的区域。接下来对这些这些区域进行筛选。

         第二步

补充距离(complementarydistance metrics)作为标准做single linkage criterion (SLC),其实就是用自定义的距离公式(d(i)(ra, rb) = (f i(ra)−f i(rb))2+(xa−xb)2+(ya −yb)2)做合并初始区域的操作。

整体的算法流程见下图(引用自【2】)


图中的calculatesimilarity就是用以上提到的距离公式来算的,公式中除了欧氏距离外的自定义的f i体现了算法的多样化策略:

         复杂场景需要多种距离策略来进行计算:

“mean grayvalue of the region,

mean gray value in the immediate outer boundary of the region,

region’s major axis,

 mean stroke width,

and mean of the gradient magnitude at the region’s border.”

 

         策略多样性还体现在使用图片的多个通道和金字塔操作做处理:

“different color channels (i.e. Red, Green, Blue, and Gray)

  and spatial pyramid levels”

 

相识度计算流程大致可以看成

For 每一个channel  in不同的色彩、大小

         For 每个一 fi  in 各种特征

        计算 距离(相识度)

End

End

 

整个算法最后生成的是L,一个区域集合,接下来是对集合排序,选出前几个作为文字区域

 

第三步、rangking排序

对于作者如何排序第一种方法表示不理解,之后的两种还没看。因为觉得很多东西不看懂代码是搞不清楚的,在没弄清楚之前也不敢乱写。

1)      Pseudo-random ranking:

字面意思是:为每个假设加以分值表示,从根节点逐增,还要随机乘以0或1.

 

好吧,就写到这里吧,下周继续补充。

 

总结:本周前几天由于之前安装过cuda,因为有cuda残余,安装opencv时编译时自动检测后总是按照带有cuda的环境来编译,总出错,折腾了好几天。后看论文也不够深入,接下来,需要对照源码看论文,虽然还不知道linux下的这种类型的程序用什么调试。

 

短期目标:看懂源码,测试老师拍得一套街景的文字区域效果,尝试写代码直观呈现图片上文字区域,看懂并学习论文evaluate部分的代码和方法,学习使用各种dataset。

 

引用

【1】      http://blog.sciencenet.cn/blog-1327159-849648.html

【2】      http://blog.csdn.net/surgewong/article/details/39316931

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值