一文带你探讨场景文本识别中的语言模型

【摘要】 文本图像中包含两层信息:视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘,时常会导致错误的文本识别结果(之后会详细说明)。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。

目录:

  1. 语言模型定义
  2. 基于深度学习的解决思路
  3. 语言模型的问题
  4. 未来展望

一、语言模型定义

  1. 1. 什么是语言模型?


图1
如图1所示,顾名思义,语言模型即根据当前语境的上下文推断当前句子的意思。具体的标准定义为:对于语言序列w1w2…wn,语言模型就是计算该序列的概率即P(w1w2…wn)。

  1. 为什么需要语言模型?

文本图像中包含两层信息:视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘,时常会导致错误的文本识别结果(之后会详细说明)。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。

  1. 3. 统计语言模型(n-gram)

由链式法则可以得到:
 


(1)
可以通过采用极大似然估计来计算每个词出现的条件概率,但是对于任意长的自然语言语句,根据极大似然估计直接计算P(wn |w1w2…wn-1)显然不现实(计算量太大)。因此为了解决这个问题,n-gram语

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值