文字检测用DBNet,文字识别用CRNN
2020-AAAI-华科白翔-Real-time Scene Text Detection with Differentiable Binarization
做文字检测(基于分割的方法)
目前文字检测算法可以大致分为两类:基于回归的方法和基于分割的方法。
DBNet属于基于分割的方法。
https://blog.csdn.net/michaelshare/article/details/108811236
本文的最大创新点。在基于分割的文本检测网络中,最终的二值化map都是使用的固定阈值来获取,并且阈值不同对性能影响较大。本文中,对每一个像素点进行自适应二值化,二值化阈值由网络学习得到,彻底将二值化这一步骤加入到网络里一起训练,这样最终的输出图对于阈值就会非常鲁棒。
https://zhuanlan.zhihu.com/p/94677957
第一模块:使用CNN网络,对输入图像提取特征,得到特征图,本实验使用的骨干网络是轻量化网络MobileNetv3,同时使用了FPN结构,获取多尺度的特征,在本实验中,我们提取4个不同尺度下的特征图做拼接。
第二模块:使用一个卷积层和两个转置卷积层的结构获取预测的概率图和阈值图;
第三模块:使用DB方法获取近似二值图。
https://paddlepedia.readthedocs.io/en/latest/tutorials/computer_vision/OCR/OCR_Detection/DBNet.html