Transformer与OCR

本文探讨Transformer在OCR任务中的潜力,分析其相对于CRNN中LSTM的优势,特别是Transformer的注意力机制如何解决长期依赖问题并提高并行计算效率。通过理解attention机制,展示其在捕捉输入序列关系上的能力,并讨论其在图像识别中的应用,尤其是对于OCR中的多角度和混排识别问题的解决方案。
摘要由CSDN通过智能技术生成

由于OCR是序列到序列,NMT或者通用的任务Transformer也是Sequence 2 Sequence。而OCR识别经典论文是CRNN,其中是CNN+RNN+softmax,这个RNN可以试试LSTM,GRU,或者其他变种。也可以是机器翻译的端到端的序列识别。
本文试图分析Transformer与OCR任务,试图将Transformer替换CRNN中的LSTM

N-Grams

N-grams refer to the process of combining the nearby words together for representation purposes where N represents the number of words to be combined together.

  • For eg, consider a sentence, “Natural Language Processing is essential to Computer Science.”
  • A 1-gram or unigram model will tokenize the sentence into one word combinations and thus the output will be “Natural, Language, Processing, is, essential, to, Computer, Science”
  • A bigram model on the other hand will tokenize it into combination of 2 words each and the output will be “Natural Language, Language Processing, Processing is, is essential, essential to, to Computer, Computer Science”
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值