数据挖掘实验——认识数据与进行数据预处理

本实验报告详述了数据预处理的过程,包括数据的归一化、缺失值处理和特征筛选。通过归一化操作使数据在同一尺度上,使用特定策略处理数值型和标签型数据的缺失值,并通过计算信息增益进行特征选择。实验表明,数据预处理在理解数据和提升分析效率方面至关重要。
摘要由CSDN通过智能技术生成

本实验的实验报告以及相关数据集处理数据所用代码都放在下面这个资源链接之中
认识数据与进行数据预处理的实验
免费下载 以供学习~

实验内容和目的:

根据老师给出的代码进行复现和运行,实现——对一个数据集进行分析,包括归一化操作、缺失值处理、特征筛选,从而达到认识数据并进行数据预处理的目的。

实验数据及结果分析:

1.归一化处理

在拿到一个数据集之后,我们通常会对数据集进行归一化处理
【1】首先我们引入需要的包
【2】之后我们在主函数中进行设置——
对数据的归一化操作:
读取数据:
对数据进行归一化操作的函数
【3】主函数 读取iris.data数据
得到进行归一化处理之后的数据集 iris_w.data
【4】利用weka获取的GUI结果:
【5】自己编程调用归一化函数的结果

2.缺失值处理

经过第一步的操作 我们已经对数据进行了初步的预处理,接下来创建一个新类实现对labor数据缺失值的处理。
在这一部分,应对不同的数据类型我们采用不同的策略~
对于数值型数据采用策略一,对于标签型数据采用策略二
接下来进行实现:
【1】依旧是先引入所需要的的库
【2】对数值型数据和标签型数据进行一个划分
【3】进行缺失数据的处理时所用的函数
分为
策略1——针对数值型数据:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值