场景文字检测概述

本文介绍了场景文字检测的重要性及其与目标检测的相似性,重点关注了CTPN(文字提案网络)的原理和应用。CTPN在Faster R-CNN基础上结合LSTM,能有效检测横向分布的文字。训练和测试过程与Faster R-CNN类似,但标注需精细处理,以确保文字区域被正确捕捉。最后,通过连接text proposal形成文本框,完成文字检测任务。
摘要由CSDN通过智能技术生成

简介

文字场景检测一直是一个热门的研究热点,文字场景检测和目标检测十分类似,用到的原理也包含了目标检测里面的faster rcnn、ssd等。

卷积网络的空间不变性是一个非常重要的特性。正是由于卷积网络的空间不变性,我们可以利用其进行字符的位置定位,CTPN的主体网络结构使用到了卷积神经网络VGG以及LSTM来提取图片的特征值。能够检测出复杂场景下的横向分布的文字,它是在faster rcnn基础上开发的。以下是直接使用faster rcnn训练以及测试与使用ctpn训练测试结果展现,效果对比如下:
在这里插入图片描述
由左图可以看出,faster rcnn能够直接检测出文字区域,如果文字之间过近或者大小发生变化,检测结果将不会十分理想。而如果使用ctpn方式,ctpn首先会检测出不同的长方形区域,这些长方形区域正好能够覆盖文字区域。

CTPN网络结构

CTPN网络结构是被用来设计检测横向排列的文字。CTPN结构与Faster R-CNN基本类似,也可以自己去设置特征属性提取结构,不同于Faster R-CNN的是,CTPN使用了LSTM层结构。当然,如果直接介绍CTPN网络结构还是推荐首先看懂faster rcnn以及lstm的源码,这样会比较好理解CTPN各个层的作用以及对层内的影响,这样就能够自己去改进主体网络架构,主体架构可以参看一下:深度学习在医学领域的应用中的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值