大话文本检测经典模型:CTPN

CTPN(Connectionist Text Proposal Network)是一种用于自然场景文本检测的模型,结合了CNN和RNN的优势。通过固定高度的检测和RNN的序列识别,CTPN能够准确检测出连续文本区域。本文介绍了CTPN的工作原理,包括其文字分布特点、模型结构和检测流程,展示了CTPN在实际应用中的优秀表现。
摘要由CSDN通过智能技术生成

7f57d9f07c5de69840c08cf405c372e6c5f.jpg

文字识别是AI的一项重要应用,例如将包装盒上的文字识别出来、将产品说明书上的文字识别出来、将大街上广告牌的文字识别出来等等,在现实生活中能给我们带来很大的便利,有着非常广泛的应用。

一个简单的文字识别流程如下:

7c3624d71af2263e585310dd02f84e51419.jpg

Step 1. 通过手机、摄像机等设备采集含有待识别字符的图像,作为输入;

Step 2. 对图像进行尺寸缩放、明暗调整、去噪等预处理操作;

Step 3. 将图像中的单个字符、或者是连续几个字符所在的区域检测出来;

Step 4. 根据文本检测结果从图像中将文本所在区域分割出来,然后导入到模型中进行文本识别,进而得到图像中的字符信息。

其中,这个流程有两个环节非常关键,一个是文本检测、另一个是文本识别,本文将介绍文本检测的经典模型CTPN,而文本识别模型将在后面另外介绍,敬请关注。

对于印刷字体的检测,由于排版很规范,现在的检测、识别技术已经很成熟了,我们日常使用的微信、QQ里面就有提取图片中文字的功能。而对于自然场景下的文字检测,由于光照环境以及文字存在着很多样的形式,要将文字检测出来则有比较大的难度,例如要检测出大街上广告牌中的文字,如下图: 

8ed04391d2baa831923f6ca33ab9dc75b39.jpg

本文主要介绍文本检测的经典模型:CTPN,它不仅可以用于检测自然场景下的文字,印刷文字的检测自然也不在话下。

1、文字分布的特点

在了解文字检测之前,先来看一下文字分布的特点。无论是印刷文字,还是自然场景下的文字,一般文字是水平排列,连续字符的长度可变,但高度基本相同,如下图: 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值