一文带你探讨场景文本识别中的语言模型

本文探讨了场景文本识别中语言模型的重要性,分析了n-gram、RNN、CNN和Transformer在语言模型中的应用及其优缺点。语言模型通过结合上下文信息,改善视觉纹理识别的准确性,但面临OC问题和计算复杂度挑战。未来研究将侧重于更强的语言模型和降低计算量。
摘要由CSDN通过智能技术生成

【摘要】 文本图像中包含两层信息:视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘,时常会导致错误的文本识别结果(之后会详细说明)。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。

目录:

  1. 语言模型定义
  2. 基于深度学习的解决思路
  3. 语言模型的问题
  4. 未来展望

一、语言模型定义

  1. 1. 什么是语言模型?


图1
如图1所示,顾名思义,语言模型即根据当前语境的上下文推断当前句子的意思。具体的标准定义为:对于语言序列w1w2…wn,语言模型就是计算该序列的概率即P(w1w2…wn)。

  1. 为什么需要语言模型?

文本图像中包含两层信息:视觉纹理信息和语言信息。由于单纯根据视觉纹理信息进行文字识别缺少了对上下文的字符语义信息的挖掘,时常会导致错误的文本识别结果(之后会详细说明)。因此如何获得鲁棒的语言信息来提升识别性能成为了最近场景文本识别任务中比较受欢迎的思路。

  1. 3. 统计语言模型(n-gram)

由链式法则可以得到:
 


(1)
可以通过采用极大似然估计来计算每个词出现的条件概率,但是对于任意长的自然语言语句,根据极大似然估计直接计算P(wn |w1w2…wn-1)显然不现实(计算量太大)。因此为了解决这个问题,n-gram语言模型引入

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值