文本检测实战：使用OpenCV实现文本检测（EAST 文本检测器）

最新推荐文章于 2024-08-07 19:32:37 发布

2301_76278775

最新推荐文章于 2024-08-07 19:32:37 发布

阅读量1k

点赞数 22

分类专栏：程序员文章标签： opencv 人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76278775/article/details/137617419

版权

本文介绍了如何使用OpenCV和EAST文本检测器实现自然场景文本检测。EAST（Efficient and Accurate Scene Text Detector）是一种深度学习模型，能够以13 FPS的速度检测720p图像上的任意方向文本。文章详细阐述了实施步骤，包括图像预处理、EAST模型的使用、非极大值抑制等，适用于图像和视频中的文本检测。

摘要由CSDN通过智能技术生成

图像/传感器噪声：手持相机的传感器噪声通常高于传统扫描仪的噪声。此外，低价相机通常会插入原始传感器的像素以产生真实的颜色。
视角：自然场景文本自然会有与文本不平行的视角，使文本更难识别。
模糊：不受控制的环境往往会模糊，特别是如果最终用户使用的智能手机没有某种形式的稳定性。
光照条件：我们无法对自然场景图像中的光照条件做出任何假设。可能接近黑暗，相机上的闪光灯可能打开，或者太阳可能很耀眼，使整个图像饱和。
分辨率：并非所有相机都是一样的——我们可能会处理分辨率低于标准的相机。
非纸质物体：大多数（但不是全部）纸张不具有反射性（至少在您尝试扫描的纸张环境中）。自然场景中的文本可能具有反射性，包括徽标、标志等。
非平面对象：考虑将文本环绕在瓶子周围时会发生什么 - 表面上的文本会扭曲变形。虽然人类可能仍然能够轻松“检测”和阅读文本，但我们的算法将面临困难。我们需要能够处理这样的用例。
未知布局：我们不能使用任何先验信息来为我们的算法提供有关文本所在位置的“线索”。

EAST 深度学习文本检测器

=========================================================================

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XXPKId7V-1637126841247)(https://pyimagesearch.com/wp-content/uploads/2018/08/opencv_text_detection_east.jpg)]

随着 OpenCV 3.4.2 和 OpenCV 4 的发布，我们现在可以使用名为 EAST 的基于深度学习的文本检测器，该检测器基于 Zhou 等人 2017 年的论文 EAST: An Efficient and Accurate Scene Text Detector。

我们称该算法为“EAST”，因为它是一个：高效且准确的场景文本检测管道。

这组作者说，EAST 管道能够预测 720p 图像上任意方向的单词和文本行，而且可以以 13 FPS 的速度运行。也许最重要的是，由于深度学习模型是端到端的，因此可以避开其他文本检测器通常应用的计算成本高的子算法，包括候选聚合和单词分区。

为了构建和训练这样一个深度学习模型，EAST 方法利用了新颖、精心设计的损失函数。有关 EAST 的更多详细信息，包括架构设计和训练方法，请务必参阅作者的出版物。

项目结构

===============================================================

$ tree --dirsfirst

.

├── images

│ ├── car_wash.png

│ ├── lebron_james.jpg

│ └── sign.jpg

├── frozen_east_text_detection.pb

├── text_detection.py

└── text_detection_video.py

请注意，我在 images/ 目录中提供了三张示例图片。您可能希望添加自己的智能手机收集的图像或您在网上找到的图像。我们今天将审查两个 .py 文件：

text_detection.py ：检测静态图像中的文本。
text_detection_video.py ：通过网络摄像头或输入视频文件检测文本。

实施说明

===============================================================

我今天包含的文本检测实现基于 OpenCV 的官方 C++ 示例；但是，我必须承认，将其转换为 Python 时遇到了一些麻烦。

首先，Python 中没有 Point2f 和 RotatedRect 函数，因此，我无法 100% 模仿 C++ 实现。 C++ 实现可以生成旋转的边界框，但不幸的是，我今天与您分享的那个不能。

其次，NMSBoxes 函数不返回 Python 绑定的任何值（至少对于我的 OpenCV 4 预发布安装），最终导致 OpenCV 抛出错误。 NMSBoxes 函数可以在 OpenCV 3.4.2 中工作，但我无法对其进行详尽的测试。

我在 imutils 中使用我自己的非最大值抑制实现解决了这个问题，但同样，我不相信这两个是 100% 可互换的，因为看起来 NMSBoxes 接受额外的参数。

鉴于所有这些，我已尽最大努力为您提供最好的 OpenCV 文本检测实现，使用我拥有的工作功能和资源。如果您对该方法有任何改进，请随时在下面的评论中分享。

使用 OpenCV 实现我们的文本检测器

===============================================================================

在开始之前，我想指出您的系统上至少需要安装 OpenCV 3.4.2（或 OpenCV 4）才能使用 OpenCV 的 EAST 文本检测器，接下来，确保您的系统上也安装/升级了 imutils：

pip install --upgrade imutils

此时您的系统已经配置完毕，因此打开 text_detection.py 并插入以下代码：

import the necessary packages

from imutils.object_detection import non_max_suppression

import numpy as np

import argparse

import time

import cv2

最低0.47元/天解锁文章

关注

22
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄2年

401: 原创

-: 周排名

-: 总排名

27万+: 访问

: 等级

9889: 积分

4262: 粉丝

5849: 获赞

8: 评论

6041: 收藏

私信

关注

热门文章

分类专栏

程序员 401篇

最新评论

SpringCloud微服务实战(1)-简介
天蓝999: 可以的，我看的另一个SpringCloud项目视频，从零开发，五天学会了SpringCloud项目实战：https://knife.blog.csdn.net/article/details/134659054
antd table 增加底部合计行统计
那维莱特: 哥们，开头崩啦
Ambari集群部署全流程
ANnianStriver: 为啥redhat7那里我只有两个框
Ambari集群部署全流程
ANnianStriver: ”Use Local Repository“为什么我的红帽只有两个框
2024Android面试题知识点总结，，android常用面试题
CSDN-Ada助手: 恭喜您第一篇博客文章发布成功！对于Android面试题知识点的总结，确实是非常有价值的内容。接下来，建议您可以继续深入挖掘Android领域的其他热门话题，比如最新的技术趋势、开发经验分享等，让读者能够从您的博客中获取更多有用的信息。加油！期待您更多精彩的创作！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。