ocr 图片纠正_针对OCR的NLP纠错:从原理到实践

ca4c3afe7d0ce430c380f4bff598108c.png

引言

158f19136d3e6c046e17db57c49a054e.png

OCR 的全称是光学字符识别,如其名,主要利用了图像信息进行识别。然而人类在识字的时候,除了眼睛看,还会自动理解文字背后的含义。例如上面这个流传甚广的“测字”游戏,你一定不会说认不出来,而是给出“老虎”或者“考虑”这样的答案。

根据贝叶斯误差的相关理论,只有图像信息的数据集,和既有图像信息、又有语义信息的数据集相比,前者的贝叶斯误差应当不小于后者(因为后者包含了前者所没有的特征)。因此,我们希望能够利用上语义信息,并认为它一定能够提升OCR的准确率。

利用语义信息的方式有多种,可以直接训练多模态的识别模型[1][2],也是目前场景文字识别领域的热门方向。还有一种原始直接的方式就是在识别之后进行纠错,就是本项目的主要内容。

纠错的两个关键问题

纠错的两个关键问题分别为:语言模型字形的相似度度量。语言模型给出当前识别结果最可能的几个真实值,字形的相似度度量给出真实值识别为当前结果的可能性

可以用信道噪声模型表征这一问题[3][4]

69426dc526f1807a660c2f8cc44daa9b.png
信道噪声模型

实际上就是HMM的思想,语言模型对应Input出现的概率P(I),字形的相似度度量对应Input 增加noise后转换为Output的概率P(O|I)

63b05929137ca61418ae9123f6b87741.png

在近期的实践当中一般分开处理这两个问题。首先利用语言模型给出使P(I)最大的n个Input,然后再找到其中使P(O|I)最大的Input。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值