图像处理基础知识
OCR
文字识别也是CV主要研究方向之一,文字识别方向主要:
1.单独文字识别
2.结合文字进行检测
3. 文字端到端识别
文字识别技术: 通过文字检测定位文字在图像区域,在提取区域上特征,在此基础上做专门的字符识别,出现许多端到端ENd2End OCR
- 文字检测— 定位图片中文本区域(定位的精度直接影响后续的Recongnition)
文字检测 中 概念:- ground truth(GT): 在有监督学习中 数据是标记(X,t)
x 是输入数据,正确的t 的标注是 ground truth
在图像识别中: 输入图像的alpha图,原始图使用Alpha大哥标签就是GT (Aplha 通道表示一个图片透明和不透明程度) - detecting box: 窗口移动的 box
- IOU: 图像分割问题标准性能度量,预测区域与实况区域之间的相似性
- 文字检测算法:
- EAST/CTPN/SegLink/PixelLink/TextBoxes/TextBoxes++/TextSnake/MSR/…
- ground truth(GT): 在有监督学习中 数据是标记(X,t)
- 文字识别:
对于不弯曲的文本识别
* CNN + RNN + CTC
* CNN + seq2deq+Attention
* CNN + LSTM + CTC 验证码识别
对于弯曲文本识别:
按照传统方式 出现大量无效的区域,STN 网络学习变换参数
使用Deformable Convolution 可变形卷积 可以提取文字区域的不同形状特征
参考文章: https://zhuanlan.zhihu.com/p/657075435