论文阅读:(金连文 2021) 自然场景文本检测与识别中的深度学习方法综述

本文梳理了华南理工大学金连文团队关于场景文本检测、识别和端到端算法的综述。介绍了基于CTC和注意力机制的文本识别应用场景,以及自顶向下和自底向上的文本检测方法。提供了全面的框架图,帮助理解当前OCR技术的最新进展。
摘要由CSDN通过智能技术生成

引言
  • 由于自己工作是OCR相关,所以对这块的关注较多一些,但是难免会遗漏一些相关的工作
  • 时刻追踪最新的工作进展,看综述是最偷懒的做法,当然是要看比较全面和公正的综述
  • 题目中的这篇综述是华南理工大学金连文老师团队的,写得很全面,受益颇多
  • 本篇文章这是简单梳理了一下文中提到的场景文本检测、文本识别和端到端算法的框图,便于从整体来看。
  • 如果想要看全文以及框图原文件,可以去这里下载:提取码:0dvz
2021-11-23 update 文本识别相关
  • 关于基于CTC解码算法和基于注意力机制解码算法应用场景:基于CTC的更适合于篇幅级别的文本识别任务,而基于注意力机制的更适用于单词级别的文本识别任务
2021-11-22 update 文本检测相关
  • 自顶向下文本检测方法:基于以深度学习为基础的目标检测技术或者示例分割技术,它将文本视为一种通用目标检测,然后直接检测出整个文本实例。此类方法通常是直接回归出水平矩形或者多方向的任意形状多边形以解决文本检测的问题。
  • 自底向上文本检测方法:借鉴传统文本检测方法的思想,先通过卷积神经网络检测出基本的文本组件,然后通过一些后处理的方式将文本组件聚集成一个完整的文本实例。此类方法可以进一步划分为像素级别的方法(基于分割)和文本片段级别的方法。
    自然场景文本检测方法流程图
基于深度学习的场景文本检测

基于深度学习的场景文本检测

自然场景文本识别

自然场景文本识别

端到端自然场景检测和识别

端到端自然场景检测和识别

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值