数据预处理-邻值插补法

面向萌新以及初学者,注释详细,理解简单,对于熟练者可以打包略作修改即可使用。

本代码可以更换地址,一键运行!!!你的点赞就是对我最大支持。

首先从Excel文件中读取数据并将其存储在变量all_xls中。然后,通过循环将所有数据合并成一行,并在数据中找到小于100的值,用其左侧相邻值进行插值处理。处理完成后,将数据恢复为原始格式并存储在xls_end中。

目的是处理Excel文件中的数据,对小于100的值进行插值处理,以便更好地分析和理解数据。通过循环和条件语句,可以有效地处理大量数据并进行必要的数据清洗和预处理工作。

close all  %关闭所有窗口
clc
clear all  %清理所有已有数据
xls1=xlsread("C:\Users\kokomi\Desktop\测试集PA.xlsx");%放入你的文件数据
xls2=[];%也可以存入其他你需要集合的文件数据
all_xls=[xls1;xls2];%数据集合
[m,n]=size(all_xls);%判断行列数
%%建立空函数,为了做储存for循环的数据做准备
xls_1=[];
xls_2=[];
xls_end=[];
for a=1:m  %for循环用来遍历所有行,合成一行
    xls_4=all_xls(a,:);
    xls_1=[xls_1,xls_4];
    a=a+1;
end
%目的是进行处理,此处做的是不足100的数进行相邻值插补
for o=2:m*n %for循环用来遍历上面一行中的每列
    if xls_1(1,o)<100
       xls_1(1,o)=xls_1(1,o-1);%进行左相邻值插补,右邻也可以(将两个互换),注意修改循环次数。
    end
       o=o+1;
end
%数据处理完成,还原成原来的格式
for b=1:m
    xls_2=xls_1(1,n*(b-1)+1:n*b);
    xls_end=[xls_end;xls_2];
    b=b+1;
end
%最后的值储存在xls_end里

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在机器学习中,数据预处理是非常重要的一步。其中,处理缺失值是数据预处理的一项重要任务。插补是一种常用的处理缺失值的方。它通过利用已有数据的信息,对缺失值进行估计或预测,从而填补缺失值。以下是一些常用的插补: 1. 均值插补 均值插补是一种常用的插补,它通过计算非缺失值的平均值来填补缺失值。这种方对于连续变量非常有效,但对于分类变量不是很适用。 2. 中位数插补 中位数插补类似于均值插补,但是使用的是中位数。这种方对于连续变量非常有效,并且相对于均值插补更稳健,因为它受到极端值的影响较小。 3. 众数插补 众数插补是用于分类变量的一种插补。它通过计算非缺失值的众数来填补缺失值。这种方对于分类变量非常有效,并且相对于均值插补和中位数插补更稳健。 4. 回归插补 回归插补是一种基于回归分析的插补。它通过使用非缺失值来建立一个回归模型,然后使用模型来预测缺失值。这种方对于连续变量非常有效,并且可以使用各种回归算法,如线性回归、多项式回归和决策树回归等。 5. K近邻插补 K近邻插补是一种基于相似性的插补。它通过查找与缺失值最接近的K个非缺失值来预测缺失值。这种方对于连续变量和分类变量都很有效,并且可以使用各种距离度量方,如欧氏距离、曼哈顿距离和余弦相似度等。 需要注意的是,插补只是一种处理缺失值的方,它并不能保证预测的缺失值是准确的。因此,在使用插补处理缺失值时,需要进行适当的评估和验证。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值