记录一次对ctw的finetuning过程

本文记录了一次使用清华开源的CTW Baseline对验证码识别模型进行Finetuning的过程。首先介绍了项目背景,由于缺乏车牌数据,转向了验证码识别,并利用几十万张验证码图片进行模型优化。详细描述了数据准备步骤,包括裁剪图片、生成VOC格式数据和LMDB文件。在Finetuning模型阶段,遇到形状不匹配的问题,通过修改预训练模型层的名称来解决,并提到训练过程中遇到的GPU资源限制问题。
摘要由CSDN通过智能技术生成

    因为最近老师想让我们搞一个车牌识别的项目,目前想做的是 plate recognition in the wild 但是手里面目前还没有太多现实生活中的车牌的标注的数据,所以直接训练车牌的途经只好作罢。现在一个师妹在做的毕设是图片中的验证码的识别,从某公司那里拿到了好多验证码的图片,它们大多数长这个样子:


    

    大约有几十万张程序自动生成的验证码图片,每张图片像素均为300*210,待识别的汉字带一点旋转角度,导师决定让我们先用OCR的方式试一试。


    我们的使用了清华最近开源的一个中文数据库训练出来的baseline

  • 官网:https://ctwdataset.github.io/
  • Github: https://github.com/yuantailing/ctw-baseline
  • Paper:   https://arxiv.org/abs/1803.00085

    此数据库相当庞大,在论文里面给了好几种方法实现的baseline,但是从Github里面clone出来的话主要有两种:一种是用yolo实现的,一种是用SSD实现的,clone来之后都要自己再编译一下!

     可以直接用其训练好的model测试下,其论文中展示的结果图片的效果比较好,但是轮到我们做测试的话会发现对图片的误检还有漏检还满多的 ,下图为用pre-trained的model拿其测试图片来检测



    毕竟这个项目的主要贡献还是如此庞大和复杂的有标注的中文数据库,所以现在的model也只能用来当一个baseline,大家也是还是主要要好好利用这个数据库来搞点事情!比如我们就打算用现有的五十多万张验证码的图片来对这个model进行finetunin

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值