1. 保证测试集出现的字符在训练集都出现; 2. 建议使用lmdb存储,除了图像和label信息,还要记录一些关键数目信息; 3. 对汉字要做繁简体字检查,以便正确使用字体或者其他; 4. 避免出现gt信息缺失的情况。