关于classification图像分类这个任务,提几个重点
首先克隆git项目https://github.com/yuantailing/ctw-baseline
data目录下的东西需要从https://ctwdataset.github.io/下载
首先要注意的是,分类任务的对象只是前1000个频度最高的汉字,其余的汉字不作为分类任务的对象。
其次,数据集被分成train, val和test三部分,图像分类的话只有train和val的标注是完全公开的,如果要基于test进行测试,只能提交至指定的测试服务器。本地的测试默认的是用val这部分进行测试。
要进行本地测试,首先需要意的是把annotaions里的4个文件放在./data/annotations/downloads里,然后在./judge
目录下运行fake_testing_set.py,然后在./data/annotations/会生成ground truth文件。
如果是在服务器进行test部分的测试,./judge应该是用不到的。
关于tutorials/2-classification.ipynb,需要注意的是教程里的默认的数据集划分方式是把train和val放一起作为训练集。test部分的测试需要在测试服务器,而要提交的是一个jsonl文件由classification/eval.py得到。测试这块,如果是在云端,需要的东西的准备其实运行这一个文件的运行应该就够了。本地的话,还是详见./judge吧。