关于PaddleOCR-release-2.7代码训练自己的数据集出错的记录

1、首先点名骂一下某度给的代码,我用的官方的标注工具,官方的转换代码,一训练就报错,这是就脚趾头做的代码吗??
2、https://blog.csdn.net/weixin_51302403/article/details/134818251?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-134818251-blog-132078422.235%5Ev43%5Epc_blog_bottom_relevance_base6&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-134818251-blog-132078422.235%5Ev43%5Epc_blog_bottom_relevance_base6
参考这个大佬的连接,解决了问题了,
主要就是删掉代码中的\n,如图所示,红线标出来的地方都改了,再次运行就可以了

在这里插入图片描述

具体报错如下:
ppocr ERROR: When parsing line G:\zifu_shibie\train_data\rec\train\enhanced_
控制台会无限输出list out of range的报错

2、昨天标注的数据集训练会出现乱码,而且检测出来的字符不全,怀疑是数据集不够多,我就标注了100张
于是又多标注了一些,想着说吧两次标注的图片,crop_img直接复制过去,还有Label.txt和rec_gt.txt直接修改了就行了,结果是复制过去运行报错

但是在划分数据集的时候出现这个问题,运行的代码是
python gen_ocr_train_val_test.py --trainValTestRatio 6:2:2 --datasetRootPath=G:\zifu_shibie\origin222
其中\n部分的代码,也就是gen_ocr_train_val_test.py这里边的三个\n已经按照上述说明删除了。

Traceback (most recent call last):
File “gen_ocr_train_val_test.py”, line 149, in
genDetRecTrainVal(args)
File “gen_ocr_train_val_test.py”, line 96, in genDetRecTrainVal
splitTrainVal(root, recAbsTrainRootPath, recAbsValRootPath, recAbsTestRootPath, recTrainTxt, recValTxt,
File “gen_ocr_train_val_test.py”, line 32, in splitTrainVal
image_relative_path, image_label = label_record_info.split(‘\t’)

网上也没找到解决办法,折腾到大半夜也没找到啥问题
在这里插入图片描述如图所示,reg_gt.txt和Label.txt的最后只能有一个空行,这两个文件,多了空行,就会出现上述问题,尤其是两次分开标注,在复制文件时,要注意看看,记事本看不出来,用pycharm’可以

最后经过多次对比,发现reg_gt.txt多了一行,就是最后一行多了一个空行,估计是我回车了,删除空行后,重新运行数据集划分代码,问题解决
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值