python自然场景文字识别_NLP 之自然场景文字识别 1 Scene text recognition ICDAR 2003 preprocess...

最新推荐文章于 2020-12-20 18:04:22 发布

weixin_39560245

最新推荐文章于 2020-12-20 18:04:22 发布

阅读量223

点赞数

文章标签： python自然场景文字识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39560245/article/details/111746624

版权

初来咋到，很多坑需要自己一个一个过。就比如数据预处理，我谷歌了好半天也没找到现成的轮子，只好自己写一个了。

参考的论文是An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition.

数据集下载

这个论文里面有用ICDAR 2003 数据集的测试，也就是今天的博客的主要内容了。

论文中介绍了有251 scene text images, 严谨的我就来数一数

youngt_05.08.2002 文件夹， 113 个

ryoungt_13.08.2002 文件夹， 134 个

sml_01.08.2002 文件夹， 4个

这样加起来还真是。数据集下载的地方就是这里啦

选择 Robust Reading and Text Locating 下载

举个例子，图片都是这样的。

数据集预处理

这个时候就需要看看那个word.xml文件了，随便截个图，观察一下画风

这画风让学数字电路的我虎躯一阵，决定去谷歌，看看有没有现成的代码，可惜谷歌了好久并没有。于是乎决定自己写。

这个XML 文件的格式还是很清楚的， imageName 就是文件的路径，下面的x , y, height, width 就是文字的所在地。那个 tag 标签就是对应的文字内容，知道了这些还是觉得自己手写很麻烦，又去谷歌了。

这个时候发现了强大的xml python package,

这包的具体使用可以参考如下链接，

我这个上面的简单代码，就是用来确认我能读到需要的内容，比如路径什么的。

接下来我写了两个函数一个是 isalphanumeric, 一个是inser_split, 这个函数isalphanumeric

主要是用来判断这个字体内容是不是数字+字母，不是就返回false. inser_split 这个呢就是插入 | 用来分开各个字母，截图如下啦。

接下来就是 crop image and save it

这个写的有点乱，主要的目的就是用OPENCV 把上面words.xml 指定位置上的文字截图下来，然后保存到一个文件里，我这个就是把所有的裁剪后的图片保存到./crop/里，根据cv2.imwrite 这个函数写进去。

这个函数还比较简单，就是读image 在image2里，我设置image2 是为了快速debug 遍历一部分图片 , 省着遍历所有图片。

抓image name, 名字通过firstChild.data 得到

抓taggedRectangels, 和taggedRectangle 这两个loop,

然后就是截图 crop， cnt， total_Cnt 的目的主要是为了确认总数是否正确。截图 crop image 这个函数

最后又写了csv 文件，按照 /full/path/to/image2 这个格式写的, 参考注释

这里边有个continue , 主要是论文里说， Ignore images that either contain non-alphanumeric charachters or have less than 3 characters.

图片crop 完了，图片名字格式就是内容_编号，效果不错。

写到这里，数了下截图的个数， 860 cropped images, looks great.

weixin_39560245

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python自然场景文字识别_NLP 之自然场景文字识别 1 Scene text recognition ICDAR 2003 preprocess...

初来咋到，很多坑需要自己一个一个过。就比如数据预处理，我谷歌了好半天也没找到现成的轮子，只好自己写一个了。参考的论文是An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition.数据集下载这个论文里面有...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。