谷歌街景中路牌、广告等标识文字的识别（文本识别在自然场景下的应用）之文本识别分类器

最新推荐文章于 2025-02-09 17:22:08 发布

peaceGPT

最新推荐文章于 2025-02-09 17:22:08 发布

阅读量1.6k

点赞数

文章标签：谷歌街景文本识别 CNN

本文链接：https://blog.csdn.net/caiji_is_studying/article/details/103419463

版权

本文介绍了谷歌街景中基于CNN的文本检测和识别技术。通过训练2元分类器进行字符判断，以及62元分类器进行字符识别，能够有效地在街景图像中定位并识别文本，无需依赖领域知识和人工规则。CNN的卷积层、池化层和权值共享特性使其适合处理图像任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.简介

谷歌街景中的文本读取主要分为文本检测和文本识别。这两个模块各使用了一个训练好的CNN分类器用于字符的判断和识别。CNN基于字符训练数据集中的正样本和负样本，从中学习字符的特征表达，并训练形成最终的分类器。

文本检测模块训练的是一个2元分类器，用于判别该CNN视野范围内是否包含文字，称为字符判断分类器；文本识别模块训练的是一个62元分类器（针对10个数字和52个大小写英文字母），识别该CNN视野范围内的文本内容，也叫做字符识别分类器。

通过摄像头读取到街景的图像，对需要进行文本识别的图像进行分析，利用这两个模块的训练可以实现对街景图像的文本检测和字符识别。通过使用卷积神经网络检测和识别英文和数字，而不需要依赖于领域知识和人工指定的规则。系统接收一张场景图像作为输入。经过文本检测模块和文本识别模块的处理后输出场景图像中方形文本区域的坐标和对应的识别结果。

2.流程图

在这里插入图片描述

3.文本识别分类器

卷积神经网络（CNN）分类器

一个最为简单的三层神经网络已经可以拟合任意函数，根据实验表明，前馈神经网络的层数越多，其学习到的模型越准确。卷积神经网络（CNN）也是这样的一个多层前馈神经网络，区别于普通深层神经网络，其在结构上有着自己的特点：一是具有被称为卷积层和池化层的特殊结构，二是CNN网络使用权值共享。卷积操作是图像的基本操作之一，它使得CNN更加善于处理

最低0.47元/天解锁文章