分割文本_文本检测综述

最新推荐文章于 2023-02-21 23:36:33 发布

群论专家

最新推荐文章于 2023-02-21 23:36:33 发布

阅读量906

点赞数

文章标签：分割文本

本文链接：https://blog.csdn.net/weixin_33565558/article/details/112731769

版权

本文详细梳理了文本检测的难点，包括背景多样化、形状和方向多样化等，并介绍了基于候选框、分割和混合方法的深度学习文本检测技术，涵盖Faster RCNN、SSD、RFCN等模型，探讨了各种方法的优势和应用场景。

摘要由CSDN通过智能技术生成

文本检测的相关研究整理（拷贝），持续更新。。。

综述参考：

1 SIGAI：自然场景文本检测识别技术综述

2 https://zhuanlan.zhihu.com/p/52335619

文本检测的难点

背景多样化．自然场景下，文本行的背景可以为任意，同时还会受一些结构相近的背景影响(如栅栏)
文本行形状和方向的多样化．如水平、垂直、倾斜、曲线等
文本行颜色、字体、尺度的多样化
不同程度的透视变换
恶劣的光照条件和不同程度的遮挡

文本检测的今生

目前文本检测领域的深度学习方法主要包括：基于候选框的文本检测(Proposal-based)、基于分割的文本检测(Segmentation-based)、基于两者方法混合的文本检测(Hybrid-based)、其它方法的文本检测．对于基于候选框的文本检测，其基本思路是先利用若干个default boxes(也称anchor)产生大量的候选文本框，再经过NMS得到最终的检测结果．对于基于分割的文本检测，其基本思路是通过分割网络结构进行像素级别的语义分割，再基于分割的结果构建文本行．

基于候选框的文本检测(Proposal-based)

基于候选框的文本检测，最经典的就是基于Faster-RCNN、SSD、RFCN.

基于Faster RCNN的文本检测

1 SLPR

Sliding Line Point Regression for Shape Robust Scene Text Detection（2018）

提出基于滑线点回归(SLPR)，优势就是SLPR可以检测任意形状文本
整体框架基于2-stage框架 Faster-Rcnn 或者 RFCN
其中，SLPR水平垂直分别用了7条等距线，对于一个多边形需要预测32个参数，bbox(4) + 文本与水平线交点(14) + 文本与垂直线交点(14)

上图说明的是两种情况：对于水平和垂直的各14个点的后期使用，可以选择使用长边的预测的14个，忽略短边的预测的14个。也可以两个预测求平均使用。
如上图所示，只有水平或者垂直的14个点还不能确定这个多边形框。还少4个红色的实心点。这4个红色的实心点是对水平或者垂直的14个点进行连线，然后顺延这个连线和外面蓝色的框相交的交点。因此，还需要预测box的4个点。
网络结构：

实验结果

还包括对不同nms方式的对比。见论文

2 FFST(特征融合)

找不到论文，该想法来源于网上
基于原生的fast-rcnn框架
在RPN网络种和特征提取网络中使用特征融合，主要针对的是多尺度的文本检测问题
思路清晰如下：

最低0.47元/天解锁文章

群论专家

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分割文本_文本检测综述

文本检测的相关研究整理（拷贝），持续更新。。。综述参考：1 SIGAI：自然场景文本检测识别技术综述 2 https://zhuanlan.zhihu.com/p/52335619 文本检测的难点背景多样化．自然场景下，文本行的背景可以为任意，同时还会受一些结构相近的背景影响(如栅栏)文本行形状和方向的多样化．如水平、垂直、倾斜、曲线等文本行颜色、字体、尺度的多样化不同程度的透视变换恶劣的光照...
复制链接

扫一扫