text detection
Android_chunhui
人不一定能什么都擅长,有自己的特点就好!
展开
-
MSER
最大稳定极值区域,基于分水岭算法。是对一幅灰度图像取阈值进行二值化处理,阈值依次取[0..255]。随着阈值的增加黑色(值为0)的区域慢慢扩大,类似于分水岭算法中的水面的上升。 q(i)=|Qi+△-Qi-△|/|Qi| 其中,Qi表示阈值为i时的某一连通区域,△为灰度阈值的微小变化量,q(i)为阈值是i时的区域Qi的变化率。当q(i)小于指定阈值时,则Qi为最大稳定极值区域。在计...原创 2018-05-29 21:57:16 · 1451 阅读 · 0 评论 -
Scene Text Detection via Holistic, Multi-Channel Prediction
这是将文本检测看做语义分割问题的第三篇(前两篇是text detection with FCN和cascade CNN),模型运行在整张图上产生全局的像素及预测。本文提取了文本的三种特征:文本块特征、字符区域和两者关系,和text detection with FCN相似,只是改进了字符区域聚合的方法。本文思路:使用一个网络产生文本块,字符区域和连接方向的显著图,将字符区域手工聚合成文本行,并结...原创 2019-07-24 15:30:20 · 867 阅读 · 0 评论 -
CVPR2016】Multi-Oriented Text Detection with Fully Convolutional Networks
Introduction通过手工设计的字符特征训练字符分类器,以及通过文本行的对称性、自相似性来区分text/non-text,可以看出局部信息(字符区域)和全局信息(文本块)都对文本检测有帮助作者认为在文本检测中使用字符分类器的思路(或者应该说是bottom-to-up思路)已经行不通,原因有:字符特征易受到不均匀光照、低分辨率和不连续笔画的影响;相似于字符的背景,树叶,砖块等;字符本...原创 2019-07-24 15:27:16 · 505 阅读 · 0 评论 -
Arbitrary-Oriented Scene Text Detection via Rotation Proposals
bounding box表示使用(x,y,w,h,θ)(x,y,w,h,\theta)(x,y,w,h,θ) 四点坐标方式表示bbox,其中(x,y)(x,y)(x,y) 为bbox中心坐标,不是左上角坐标,因此不用考虑文本方向降低了标注难度;w,hw,hw,h 分别为长边,短边;(旋转bbox这样定义,对水平bbox水平方向为w垂直方向h)角度范围只要覆盖180度即可,关键在于如何取角...原创 2019-07-24 14:34:50 · 480 阅读 · 0 评论 -
STN-RPN
STN层能对扭曲输入做放射变换,据说能很大程度上提高检测精度,做了一些STN和RPN结合的调研。Region Based CNN for Foreign Object Debris Detection on Airfield Pavement应用性论文,创新不大主要应用价值高。算法上没什么创新理论部分就得把各个模块的内容在复述一遍。[外链图片转存失败(img-uKieCbSQ-1563938...原创 2019-07-24 11:23:38 · 222 阅读 · 0 评论 -
STN text detection
文本检测和一般目标检测的不同文本线是一个sequence(字符、字符的一部分、多字符组成的一个sequence),而不是一般目标检测中只有一个独立的目标。 这既是优势,也是难点。优势体现在同一文本线上不同字符可以互相利用上下文,可以用sequence的方法比如RNN来表示。难点体现在要检测出一个完整的文本线, 同一文本线上不同字符可能差异大,距离远,要作为一个整体检测出来难度比单个目标更大。(字符...原创 2019-07-24 11:10:57 · 236 阅读 · 0 评论 -
记录x264编译
下载http://videolan.mirror.aussiehq.net.au/x264/snapshots/编译要注意编译器是x86 or x64,如果是64位一定要编译64bit的想64,否则会报找不到函数的错误(LNK2019未定义引用),即使包含目录正确。具体方法:(转自http://blog.sina.com.cn/s/blog_5f435c130102wq1x.html)D...原创 2018-12-24 17:07:15 · 194 阅读 · 0 评论 -
HOG
histogram of oriented gradients(梯度方向直方图),是一种局部的图像特征。生成步骤:1.色彩/Gamma校正图像归一化 2.计算图像梯度大小和方向 3.对cell内的梯度方向依据梯度幅值进行权重投影 4.HOG特征向量归一化 5.所有block的HOG特征连接起来构成最终的特征向量图像归一化 为了减少光照因素的影响,Gamma压缩公式: I...原创 2018-06-07 19:16:14 · 4672 阅读 · 0 评论 -
SWT
strock width transform,全称笔画宽度变换,是一种局部的图像算子用于提取字符(letter)的笔画宽度作为图像特征。算法步骤如下: 分成三个部分: - 用canny算子计算梯度及方向 - SWT提取笔画宽度得到字符候选区域,使用形状和纹理的先验知识过滤掉误检的候选 - 将字符候选区聚合成单词(word)/文本行(text line) SWT在使用sw...原创 2018-06-06 11:59:38 · 1943 阅读 · 0 评论 -
【arXiv2016】Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network
Introduction 自底向上方法(bottom-up)的流程: - 通过MSER或SWT检测器检测字符或笔画特征。低级特征(像素级)不稳定,易受光照等影响。- 使用字符级分类器滤除非文本的假阳性检测。 由于上一步会产生几十倍文本区域数量的非文本区,所以会给分类器带来巨大挑战(可能是由于不平衡问题)。- 将剩余字符区域聚合成文本行。需要引入启发式规则和几何特征,以及手工设计的聚合...原创 2019-07-24 15:35:57 · 378 阅读 · 0 评论