CTW数据集的classification的benchmark的个人解读

本文介绍了关于CTW-BaseLineData项目中的图像分类任务,涉及数据集特点(仅包含前1000个高频汉字),数据集划分(train,val,test),以及本地和服务器测试的详细步骤。教程和测试文件的要求也做了说明。
摘要由CSDN通过智能技术生成

关于classification图像分类这个任务,提几个重点
首先克隆git项目https://github.com/yuantailing/ctw-baseline
data目录下的东西需要从https://ctwdataset.github.io/下载

首先要注意的是,分类任务的对象只是前1000个频度最高的汉字,其余的汉字不作为分类任务的对象。

其次,数据集被分成train, val和test三部分,图像分类的话只有train和val的标注是完全公开的,如果要基于test进行测试,只能提交至指定的测试服务器。本地的测试默认的是用val这部分进行测试。

要进行本地测试,首先需要意的是把annotaions里的4个文件放在./data/annotations/downloads里,然后在./judge
目录下运行fake_testing_set.py,然后在./data/annotations/会生成ground truth文件。
如果是在服务器进行test部分的测试,./judge应该是用不到的。

关于tutorials/2-classification.ipynb,需要注意的是教程里的默认的数据集划分方式是把train和val放一起作为训练集。test部分的测试需要在测试服务器,而要提交的是一个jsonl文件由classification/eval.py得到。测试这块,如果是在云端,需要的东西的准备其实运行这一个文件的运行应该就够了。本地的话,还是详见./judge吧。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值