USPS手写体数据的处理

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

美国邮政服务USPS手写数字识别库,库中为16×16像素的灰度图像,共有9298个手写数字图像。对于要做迁移学习(Transfer Learning)、连续学习(Life Long learning)等的研究来说,是除mnist之外又一实用的数据集。

下载的数据为.mat文件,使用matlab进行处理 。
https://www.dssz.com/556480.html

一、数据可视化

示例:下载的数据USPS手写体图像是以一维向量的形式保存的,用imshow画图前先进行转化。

image = [];
for i = 1:16
	image = [image;fea(1,16*(i-1)+1:16*i)];
end
image = padarray(image,[6 6]);%零填充
imshow(image,'InitialMagnification','fit');

二、数据处理

1.图像插值

USPS图像像素是16×16,为了与mnist手写体数据集同步,需转化成28×28像素。本次采用零填充的方法进行图像插值。

%%%16x16扩展成28x28%%%
fea_train = [];gnd_train = [];%训练数据和标签
fea_test = [];gnd_test = [];%测试数据和标签
fea_cp = fea;fea_cp(fea_cp<0) = 0;
for n = 1:9298
    image = [];
    %展开为二维矩阵方便零填充
    for i = 1:16
        image = [image;fea_cp(n,16*(i-1)+1:16*i)];
    end
    image = padarray(image,[6 6]);%零填充
    fea_train(n,:,:) = image;%转为三维矩阵
end

2.划分训练集和测试集

调整label的值,并将大约9千个图像数据分成训练集和测试集。

%%%train and test part%%%
fea_test = fea_train(7292:end,:,:);fea_train = fea_train(1:7291,:,:);
gnd = gnd - 1;%标记为1-10 改成0-9
gnd_train = gnd(1:7291);gnd_test = gnd(7292:end);

三、下载链接

处理好的代码下载链接:https://download.csdn.net/download/SCNU_wenweikun/15844690

USPS数据集是一个常用的手写字体数据集,主要用于模式识别、图像处理和机器学习等领域的研究。它包含一系列的手写数字图像样本,每个样本大小为16x16像素,共有10个类别,分别代表数字0-9。 KNN(最近邻居)算法是一种基本的分类算法,它通过计算一个样本与训练集中所有样本的距离来确定其类别。对于USPS数据集,我们可以使用KNN算法来进行数字图像的分类。 具体实施KNN算法的步骤如下: 1. 准备数据集:将USPS数据集划分为训练集和测试集,其中训练集用于构建模型,测试集用于评估模型的性能。 2. 计算距离:对于测试集中的每个样本,计算它与训练集中所有样本的距离。常用的距离度量方法有欧氏距离、曼哈顿距离等。 3. 选择K值:选择一个适当的K值,即邻居的数量。K值的选择对算法的性能和准确率有影响。 4. 对距离进行排序:将测试样本与训练样本的距离进行排序,找到距离最近的K个样本。 5. 进行投票:根据K个最近邻样本的类别,进行投票来确定测试样本的类别。通常采用多数表决法,即选择票数最多的类别作为预测结果。 6. 评估模型:使用测试集对模型进行评估,计算分类的准确率。 通过使用KNN算法,我们可以利用USPS数据集来进行手写数字的分类,从而实现自动化的识别和分类任务。同时,通过对K值的选择,我们可以调整算法的性能和准确率,使其更加适应实际应用需求。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值