php 识别图像定位点,深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

最新推荐文章于 2021-03-16 12:42:01 发布

黄医湿

最新推荐文章于 2021-03-16 12:42:01 发布

阅读量592

点赞数

文章标签： php 识别图像定位点

该博客介绍了使用算法自动生成文字样本的过程，包括从背景图片库、词汇库和字体中选取元素创建样本。网络设计部分涉及输入处理、卷积层、池化层、双向LSTM等，用于场景文字检测识别。尽管现有150万个样本的测试准确率为62%，但认为需要更多样本以提升模型稳定性。实验结果显示，标点符号训练不足导致错误较多，未进行版面分析影响了顺序输出。

摘要由CSDN通过智能技术生成

1:样本获取

**算法论文:** Synthetic Data for Text Localisation in Natural Images Github: https://github.com/ankush-me/SynthText

**词库:** https://pan.baidu.com/s/10anmu + 英文词汇经过处理后得到大约500兆 6000万词组

**字体:** ubntu系统下支持中文的字体，选了大概10种字体左右

**背景图片库:** http://zeus.robots.ox.ac.uk/textspot/static/db/bg_img.tar.gz 大约有一万张分割好的图片

**算法大致过程:** 随机从背景图片库中选出一张图片，随机从词库中选出一些词组，与背景图片分割

的块进行匹配，选好字体，颜色，大小，变换等信息，将词组写入背景块中,

扣取背景块矩形框作为一个个样本。

**样本类似**

2:网络设计:

29351

网络：

1：input：输入文字块，归一化到32*w 即height缩放到32，宽度按高度的比率缩放，当然，也可以缩放到自己想要的宽度，如128(测试时统一缩放到[32，128],训练时为批次训练，缩放到[32,Wmax])

下面以32*128(w,h)分析

2：conv3层时数据大小为256*8*32，两个pooling层宽高各除以4

3：pooling2层时步长为(2，1) dilation (1，1)

所以此时输出为256*4*33

4：bn层不改变输出的大小(就是做个归一化，加速训练收敛，个人理解)，同样p3层时,w+1,所以pooling3层时，输出为512*2*34

5：conv7层时，kernel 为2*2，stride(1,1) padding(0,0)

Wnew = (2 + 2 * padW - kernel ) / strideW + 1 = 1

Hnew = 33

所以conv7层输出为512*1*33

6: 后面跟两个双向Lstm,隐藏节点都是256

Blstm1输出33*1*256

Blstm2输出33*1*5530 5530 = 字符个数 + 非字符 = 5529 + 1

最终的输出结果直观上可以想象成将128分为33份，每一份对应5530个类别的概率

3:实验结果

自动生成差不多150万个样本，测试集1500张左右，测试集全对率62%左右。因为硬件限制，所以样本较少，感觉样本数量应该要几千万甚至上亿，模型才会比较稳定。150万个样本训练也没收敛，还有2.5左右的cost.

4:CTPN+CRNN整合场景文字检测识别结果

没有进行版面分析，所以识别结果没有按顺序输出

其中标点符号训练集较少，错得较多。整体识别率感觉还行，如果加大训练样本至几千万，上亿，模型应该会比较稳定，识别也会比较好

29351

29351

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
php 识别图像定位点,深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

1:样本获取**算法论文:** Synthetic Data for Text Localisation in Natural Images Github: https://github.com/ankush-me/SynthText**词库:** https://pan.baidu.com/s/10anmu + 英文词汇经过处理后得到大约500兆 6000万词组**字体:** ubntu系统下...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。