python 数据挖掘 之 对数据进行简单预处理(1)

本文介绍了Python数据挖掘中对数据集进行简单预处理的步骤,包括数据集介绍、提取数据到列表、删除重复数据和处理缺失值。通过一个小麦种子数据集为例,展示了如何操作实际数据。预处理还包括考虑数据的规范化和归一化,但在这个案例中未进行这些处理。
摘要由CSDN通过智能技术生成

python 数据挖掘 之 对数据进行简单预处理

在我们对数据集进行数据挖掘之前,需要先对数据集进行简单的处理,让数据集变得更规范更具有代表性。
对数据集进行的预处理又许多种,接下来我就简单说几种常用的。

光说不如边做边说,我这里有一个在网上找到的数据集,我们可以拿它来做例子。
seeds_dataset.txt

数据集介绍

三种不同品种小麦籽粒几何性状的测定。软X射线技术和GRAINS包用于构建所有七个实值属性
数据集来源: https://archive.ics.uci.edu/ml/datasets/seeds
数据集特征:多变量
实例数:210
检查组包括属于三种不同品种小麦的籽粒:Kama,Rosa和Canadian,每种70个元素,随机选择用于实验。
使用软X射线技术检测内部核结构的高质量可视化。
它是非破坏性的,并且比其他更复杂的成像技术(如扫描显微镜或激光技术)便宜得多。
将图像记录在13×18cm X射线KODAK板上。
使用来自实验田的联合收获的小麦谷粒进行研究,在卢布林的波兰科学院的农业生物学研究所进行了探索。

上面是凑字数的, 下面是重点:
为了构建数据,测量了小麦籽粒的七个几何参数:

1 面积A
2 周长P
3 紧凑度C = 4 pi A / P ^ 2
4 籽粒长度
5 籽粒宽度
6 不对称系数
7 核槽的长度
所有这些参数都是实值连续的。然后第八项是小麦的品种,取值1,2,3分别代表不同的小麦品种。

这是一些数据样例:
14.29 14.09 0.905 5.291 3.337 2.699 4.825 1
13.84 13.94 0.8955 5.324 3.379 2.259 4.805 1
16.17 15.38 0.8588 5.762 3.387 4.286 5.703 2
12.21 13.47 0.8453 5.357 2.893 1.661 5.178 3
.
.
.

用python将数据集提取成列表

from pandas import Series,DataFrame,np
from numpy import nan as NA
import pandas as pd
from scipy.interpolate 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值