大话文本检测经典模型：CTPN

最新推荐文章于 2024-05-11 12:00:00 发布

imPlok

最新推荐文章于 2024-05-11 12:00:00 发布

阅读量340

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/imPlok/article/details/93143871

版权

CTPN（Connectionist Text Proposal Network）是一种用于自然场景文本检测的模型，结合了CNN和RNN的优势。通过固定高度的检测和RNN的序列识别，CTPN能够准确检测出连续文本区域。本文介绍了CTPN的工作原理，包括其文字分布特点、模型结构和检测流程，展示了CTPN在实际应用中的优秀表现。

摘要由CSDN通过智能技术生成

冲击年薪50W，助你进阶Python工程师>>>

文字识别是AI的一项重要应用，例如将包装盒上的文字识别出来、将产品说明书上的文字识别出来、将大街上广告牌的文字识别出来等等，在现实生活中能给我们带来很大的便利，有着非常广泛的应用。

一个简单的文字识别流程如下：

Step 1. 通过手机、摄像机等设备采集含有待识别字符的图像，作为输入；

Step 2. 对图像进行尺寸缩放、明暗调整、去噪等预处理操作；

Step 3. 将图像中的单个字符、或者是连续几个字符所在的区域检测出来；

Step 4. 根据文本检测结果从图像中将文本所在区域分割出来，然后导入到模型中进行文本识别，进而得到图像中的字符信息。

其中，这个流程有两个环节非常关键，一个是“文本检测”、另一个是“文本识别”，本文将介绍“文本检测”的经典模型CTPN，而“文本识别”模型将在后面另外介绍，敬请关注。

对于印刷字体的检测，由于排版很规范，现在的检测、识别技术已经很成熟了，我们日常使用的微信、QQ里面就有提取图片中文字的功能。而对于自然场景下的文字检测，由于光照环境以及文字存在着很多样的形式，要将文字检测出来则有比较大的难度，例如要检测出大街上广告牌中的文字，如下图：

本文主要介绍文本检测的经典模型：CTPN，它不仅可以用于检测自然场景下的文字，印刷文字的检测自然也不在话下。

1、文字分布的特点

在了解文字检测之前，先来看一下文字分布的特点。无论是印刷文字，还是自然场景下的文字，一般文字是水平排列，连续字符的长度可变，但高度基本相同，如下图：

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。