场景文字检测与识别
场景文字检测与识别资料,经验,技巧总结。
crediks
这个作者很懒,什么都没留下…
展开
-
基于深度学习的目标检测及场景文字检测研究进展
根据本人组会PPT总结整理,复习备用。一.目标检测与场景文字检测定义目标检测:给定一张图片或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别。场景文字检测:文字检测(Text Detection):对照片中存在文字的区域进行定位,即找到单词或者文本行(word/linelevel)的边界框(bounding box);文字识别(Text Recognition):对定位后的文字进行识别。...原创 2018-03-17 21:19:02 · 15331 阅读 · 2 评论 -
场景文字检测技巧总结
从事场景文字检测相关的工作有一段时间了,总结了一些经验技巧,下面就在此记录下来,仅供参考。数据集篇icdar2015数据集由于icdar2015数据集和icdar2013数据集的训练图片均较少,因此,在训练icdar2015数据集的时候,一般融合icdar2013和icdar2015两个数据集的图片进行训练,增加鲁棒性。 对于标注为‘###’文本区域的处理输入训练样本的时候...原创 2018-05-08 15:48:43 · 1538 阅读 · 2 评论 -
[资料整理]场景文字检测资料
文字检测与识别资料目录个人主页数据库基本信息数据库功能数据库的论文和相关链接开源代码博客资源 个人主页白翔,黄伟林,VGG,Lukas Neumann,金连文,刘成林,殷绪成,Hojin Cho数据库基本信息数据库功能数据库相关链接ICDAR2003paper:ICDAR 2003原创 2017-12-15 22:00:50 · 2171 阅读 · 0 评论 -
如何判断深度学习的网络是否work?
写在前面:对于多数从业者而言,从头开始写深度学习程序的情况比较少。多数情况下,都是从Github上下载已有的深度学习的程序,使用自己的数据集进行训练,或者根据需要对程序进行修改。一般官方公开的代码实现与论文接近,而个人开发者公布的代码实现可能与官方论文有所差距。首先要做的一件事就是确保模型本身可以work。因此,需要有一双“慧眼”,在实践之初判断模型的性能好坏。那么,如何判断深度学习的网络是否wo...原创 2018-05-01 13:47:18 · 1952 阅读 · 0 评论 -
[资料整理]将场景文字数据集ICDAR2013,ICDAR2015转换为PASCAL_VOC数据集格式
写在前面:常见的目标检测框架,如faster-rcnn,SSD等,一般都提供了对pascal_voc数据集的读取接口。而将目标检测的框架应用到场景文字检测上,往往可以取得不错的效果。那么,接下来,我就介绍一下,将几种常见的场景文字数据集,如ICDAR2013,ICDAR2015,ICDAR2017,coco-text等转换为pascal_voc数据集的方式。 1.ICDAR2013IC...原创 2017-12-16 21:11:45 · 13792 阅读 · 19 评论 -
Bounding-box Regression详解
转自http://caffecn.cn/?/question/160,作者沁心风雨。在此记录,供自己复习。 R-CNN系列文章(Fast/ Faster RCNN)都训练了Bounding-box 回归器来对窗口进行校正,以提高最终的检测精度。那么这样做的好处是什么?具体的又该怎样去做呢?本文对窗口回归算法进行探讨。1.问题理解(为什么要做Bounding-box regression...原创 2018-03-13 21:09:14 · 784 阅读 · 0 评论 -
[训练测试过程记录]Faster-RCNN用于场景文字检测
写在前面:github上面的Text-Detection-with-FRCN项目是基于py-faster-rcnn项目在场景文字识别领域的扩展。和py-faster-rcnn相比,该项目的主要改动为:将检测类别换成了背景和文字,并且更改了数据集。对于初学者而言,要实现一个自己的baseline,第一步可以尝试训练别人已经实现了的网络,看看整个的运行流程是怎么样的。那么,接下来,我就记录原创 2017-11-06 20:09:00 · 4732 阅读 · 3 评论 -
[训练测试过程记录]SSD:Single Shot Detector 用于场景文字检测
介绍用SSD模型进行场景文字检测。举例数据集:COCO-Text。编译部分:1.使用cuda8编译时出错/usr/include/boost/property_tree/detail/json_parser_read.hpp:257:264: error: ‘type name’ declared as function returning an array原创 2017-12-01 19:20:00 · 4121 阅读 · 3 评论 -
[源码分析]Text-Detection-with-FRCN
Text-Detection-with-FRCN项目是基于py-faster-rcnn项目在场景文字识别领域的扩展。对Text-Detection-with-FRCN的理解过程,本质上是对py-faster-rcnn的理解过程。我个人认为,初学者,尤其是对caffe还不熟悉的时候,在理解整个项目的过程中,会有以下困惑:1.程序入口2.数据是如何准备的?3.整个网络是如何构建的?4.整个网络是如何训...原创 2017-11-21 17:58:39 · 1948 阅读 · 0 评论