OCR 知识 概括

图像处理基础知识

OCR

文字识别也是CV主要研究方向之一,文字识别方向主要:
1.单独文字识别
2.结合文字进行检测
3. 文字端到端识别
文字识别技术: 通过文字检测定位文字在图像区域,在提取区域上特征,在此基础上做专门的字符识别,出现许多端到端ENd2End OCR

  1. 文字检测— 定位图片中文本区域(定位的精度直接影响后续的Recongnition)
    文字检测 中 概念:
    1. ground truth(GT): 在有监督学习中 数据是标记(X,t) x 是输入数据,正确的t 的标注是 ground truth
      在图像识别中: 输入图像的alpha图,原始图使用Alpha大哥标签就是GT (Aplha 通道表示一个图片透明和不透明程度)
    2. detecting box: 窗口移动的 box
    3. IOU: 图像分割问题标准性能度量,预测区域与实况区域之间的相似性
    4. 文字检测算法:
    5. EAST/CTPN/SegLink/PixelLink/TextBoxes/TextBoxes++/TextSnake/MSR/…
  2. 文字识别:
    对于不弯曲的文本识别
    * CNN + RNN + CTC
    * CNN + seq2deq+Attention
    * CNN + LSTM + CTC 验证码识别
    对于弯曲文本识别:
    按照传统方式 出现大量无效的区域,STN 网络学习变换参数
    使用Deformable Convolution 可变形卷积 可以提取文字区域的不同形状特征

参考文章: https://zhuanlan.zhihu.com/p/657075435

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值