系列文章目录
文章目录
RCNN原论文数据集
训练数据集
首先,是b站上深度之眼出的关于CRNN论文解读以及原始代码解读。
论文中训练数据用的是合成的数据集Synth,其包括了800万幅训练图像及其对应的单词标签(这里个人有个一个思考:800万辐图像中就光包含了单词,而单词总量8万多,说明训练过程中每个单词出现了100次左右,个人理解就是量变产生质变,就是拿数据集喂出来的)
SynthText 自然场景图像数据集示例
测试数据集
测试数据集:ICDAR 2003 (IC03)、ICDAR 2013 (IC13)、IIIT 5k字(IIIT5k)和街景文本(SVT)。用于性能评估
IC03
包含251幅标有标记文本边界框的场景图像。忽略了包含非字母的数字字符和少于三个字符的图像,并剪切出860个文本图像的测试集。每个测试图像与一个含有50词的字典相关连。一个完整的词典是通过组合所有的每个图像的词典来建立的。
IC13