OCR入门学习

ocr:光学字符识别(识别文字)

      分为两个部分:文字检测+文字识别

  提取图像中的文字,并转换成文本形式,供后续NLP使用

  

  •   文字检测:dbnet 、CTPN

  dbnet:  原理是基于分割算法。对于一般分割算法流程:先通过网络输出文本分割的概率图,然后使用设定阈值将概率图转化为二值图,然后通过后处理得到检测结果(文本框坐标)。但是缺点在于阈值的选取非常关键。

                                                               

 概率图(probability map):图中每个像素点的值为该位置属于文本区域的概率

阀值图(threshold map):图中每个像素点的值为该位置的二值化阈值,大于阈值为文字区域,反之为背景。

近似二值图(approximate binary map):由概率图和阈值图通过 DB 算法计算得到(P-T),图中像素的值为 0 或 1。

CTPN:文本检测,本质上也属于物体检测,适用于从左往右书写的文本,从上往下或者弯曲的效果不是很好.

    VGG提取特征、BLSTM融入上下文信息,基于RPN完成检测

  • 文字识别:(ABINET、CRNN、NRTR、ROBUST_SCANNER、SAR、SATRN、SEG、TPS)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值