The Street View House Numbers (SVHN) Dataset-CSDN博客

本文链接：https://blog.csdn.net/haimengjie/article/details/131488683

http://ufldl.stanford.edu/housenumbers/http://ufldl.stanford.edu/housenumbers/

Format 2: Cropped Digits .mat 转png

import os
import scipy.io as sio
from PIL import Image

# 加载MAT文件
filename = ''#.mat文件路径
data = sio.loadmat(filename)

# 获取图像数据和标签
images = data['X']
labels = data['y']

# 创建保存图像的目录
if not os.path.exists('images'):  #转换为png格式后保存的文件名
    os.makedirs('images')

# 转换为图像数据集
for i in range(images.shape[3]):
    image = Image.fromarray(images[:, :, :, i])
    label = labels[i][0] % 10  # 取个位数作为标签

    # 创建对应类别的文件夹
    save_dir = f'images/{label}'
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)

    # 保存图像到对应的文件夹
    image.save(f'{ save_dir}/{i}.png')

print("数据集转换完成！")

#SVHN Cropped Digits数据集中的"extra"训练数据是用于训练额外模型的数据集。
# SVHN数据集是一个用于数字识别的计算机视觉数据集，其中包含大量的街道地址号码图像。
# "extra"数据集是SVHN数据集的一个补充，它包含更多的图像样本，可以用于进一步训练和提高模型的性能。
# "extra"数据集中的图像与SVHN数据集中的图像类似，都是32x32像素的裁剪数字图像。
# 这些图像涵盖了更广泛的场景和变化，包括不同的光照条件、角度和背景。
# 通过使用"extra"数据集，可以增加训练数据的多样性，帮助模型更好地泛化和识别不同类型的数字。
# 因此，如果你希望训如果你希望训练一个更强大的数字识别模型，
# 使用SVHN Cropped Digits数据集的"extra"训练数据是一个很好的选择。
# 通过将"extra"数据集与SVHN数据集的训练数据合并，你可以增加训练样本的数量，提高模型的泛化能力和准确性。
# 使用更多的训练数据可以帮助模型学习更多的特征和模式，并减少过拟合的风险。"extra"数据集中的图像具有更大的变化范围，可以帮助模型更好地适应各种不同的场景和条件。
# 总之，SVHN Cropped Digits数据集中的"extra"训练数据可以用于增强数字识别模型的性能，提高其在各种场景下的准确性和鲁棒性。

其他数据集汇总链接：https://huggingface.co/datasetshttps://huggingface.co/datasets