【汉字识别】CASIA-AHCDB数据集的使用

本文介绍了如何使用Python代码将来自CASIA-AHCDB的数据集中的.gntx格式文件转换为带有Unicode标签的PNG图片,并处理和整理了字符集。作者提到存在标签与图片对应问题,可能需要进一步检查数据一致性。
摘要由CSDN通过智能技术生成

数据官网地址下载链接:
http://www.nlpr.ia.ac.cn/pal/CASIA-AHCDB.html

解压后的数据格式为.gtnx

代码:
将.gtnx后缀格式文件转化为png

import os
import numpy as np
import struct
from PIL import Image
# data文件夹存放转换后的.png文件
data_dir = 'E:/data/CASIA-AHCDB'
# 路径为存放数据集解压后的.gntx文件
#train_data_dir = os.path.join('', 'E:\data\CASIA-AHCDB\style1_basic_train_part1')
train_data_dir = os.path.join('', 'E:\data\CASIA-AHCDB\style1_basic_test')
# test_data_dir = os.path.join('', 'E:/github/HWDB/HWDB1.1tst_gnt')


def read_from_gnt_dir(gnt_dir=train_data_dir):
    def one_file(f):
        #头大小为12
        header_size = 12
        while True:
            header = np.fromfile(f, dtype='uint8', count=header_size)
            if not header.size: break
            sample_size = header[0] + (header[1] << 8) + (header[2] << 16) + (header[3] << 24)
            #Unicode = header[7] + (header[6] << 24)+ (header[5] << 16)+ (header[4] << 8)
            # Unicode =  hex(header[5]).strip('0x') + hex(header[4]).strip('0x')
            # Unicode = '\\u' + Unicode
            # print(Unicode)
            Unicode = header[4] + (header[5] << 8)
            width = header[8] + (header[9] << 8)
            height = header[10] + (header[11] << 8)
            if header_size + width * height != sample_size:
                break
            image = np.fromfile(f, dtype='uint8', count=width * height).reshape((height, width))
            yield image, Unicode

    for file_name in os.listdir(gnt_dir):
        if file_name.endswith('.gntx'):
            file_path = os.path.join(gnt_dir, file_name)
            print("正在加载:{}".format(file_name))
            with open(file_path, 'rb') as f:
                for image, Unicode in one_file(f):
                    yield image, Unicode


char_set = set()
for _, Unicode in read_from_gnt_dir(gnt_dir=train_data_dir):
    #转化为16进制再转化为unicode字符
    #Unicode在这里是int型
    if(Unicode<0x1000 or Unicode>0xffff):
            continue
    temp = "\\u"+hex(Unicode)[2:]
    Unicode_unicode =    temp.encode('utf-8').decode('unicode_escape')
    char_set.add(Unicode_unicode)
char_list = list(char_set)
char_dict = dict(zip(sorted(char_list), range(len(char_list))))
print(len(char_dict))
print("char_dict=", char_dict)
print("char_len",len(char_set))

import pickle

f = open('char_dict', 'wb')
pickle.dump(char_dict, f)
f.close()
train_counter = 0
test_counter = 0
for image, Unicode in read_from_gnt_dir(gnt_dir=train_data_dir):
    tagcode_unicode = Unicode
    if (Unicode < 0x1000 or Unicode > 0xffff):
        continue
    temp = "\\u" + hex(Unicode)[2:]
    Unicode_unicode = temp.encode('utf-8').decode('unicode_escape')
    im = Image.fromarray(image)
# 路径为data文件夹下的子文件夹,train为存放训练集.png的文件夹
    dir_name = 'E:/data/CASIA-AHCDB/test' + '/'+Unicode_unicode
    #print(dir_name)
    if not os.path.exists(dir_name):
        os.makedirs(dir_name)
    im.convert('RGB').save(dir_name + '/' + str(train_counter) + '.png')
    print("train_counter=", train_counter)
    train_counter += 1
print('Train transformation finished ...')

网上大部分现有的都是把.gnt转化为png格式,这个AHCDB的数据下载下来是.gntx后缀格式的,根据官方提供. GNTX Format对现有的代码进行了一部分的修改。

两种后缀的区别

区别应该就是lable的编码方式有区别,.gnt的编码是GB,.gntx的编码是Unicode。

一点小疑问:

这种方式解压出来还是有些lable和图片对不上,不知道是不是有问题。

Casia-IVS数据集是一个常用于视觉监控系统的数据集,其中包含了用于视频监控场景的多个视觉属性,如行人行为、面部表情等信息。下载这个数据集可以帮助研究人员和开发者在视觉监控领域进行算法研究和系统开发。 要下载Casia-IVS数据集,首先需要找到数据集的来源和下载渠道。一般来说,可以通过搜索引擎或者相关技术论坛找到数据集的下载链接。此外,还可以直接访问Casia-IVS数据集的官方网站,通常会有详细的数据集说明和下载链接。 在下载数据集之前,需要注意一些问题。首先,确认数据集是否适合自己的研究目标,是否包含所需的视觉属性和标注信息。其次,需要查看数据集的许可协议,确保能够合法使用数据集并遵守可能的使用限制。 下载数据集时,一般会提供一个下载链接或者压缩包。点击链接或下载压缩包后,需要等待下载过程完成。下载时间根据数据集的大小和网络连接速度而定。下载完毕后,可以使用相应的解压工具将数据集解压到指定的文件夹中。 下载完成后,可以开始使用Casia-IVS数据集进行研究或开发工作。首先,可以查看数据集的说明文档,了解数据集的组织结构、文件格式以及标注信息的含义。然后,可以根据具体需求使用相应的数据处理工具对数据集进行预处理和分析。最后,根据自己的研究任务和算法需求,可以开发相应的模型或实现特定任务。 总而言之,下载Casia-IVS数据集需要找到数据源和下载渠道,了解数据集的许可协议,并使用相应的工具将数据集解压到本地。然后,可以开始使用数据集进行研究或开发工作,提升视觉监控系统的算法性能和功能。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值