【实验名称】
数据挖掘之数据预处理
【实验目的】
熟悉数据挖掘数据预处理流程。
基于给定的数据集(csv)文件,完成下列数据处理。
1、判断第一列(Id)是否有缺失值:如果有,则补全。
2、判断是否有重复记录:如果有,则删除至唯一。
3、计算成绩平均值 ,作为新一列加入原数据库框中。
4、寻找平均分最高的纪录。
5、统计每个科目大于等于60分的人数。
【实验内容】
- 程序清单
import pandas as pd
import numpy as np
# 读入文件,存放在字典data里
data = pd.read_csv("D:\\Desktop\\data1.csv")
# 填入Id列空缺的值
for i in range(1,len(data)):
if pd.isnull(data['Id'][i]):
data['Id'][i]=i+1
# Id属性列去重,保留重复时第一个值,默认将原来的东西覆盖
data.drop_duplicates(subset=['Id'],keep='first',inplace=True)
# 如果字典内有表格是NaN,把他替换为0
for (name,value) in data.items():
for i in range(1,len(data[name])): #对于name列的所有单元格
if pd.isnull(data[name][i]):
data[name][i]=0
# 为数据增加一个字段Average, 默认赋值为对每一行第1列(Id是第0列)以后所有数据取平均值,对行执行这个操作
# 关于axis:Keep in mind that axis=1 in mean(axis=1) is used to calculate the mean across each row.
# If you used axis=0 instead, the mean would be calculated across each column.
data = data.assign(Average = np.mean(data.iloc[:, 1:], axis=1))
# print(data)
# 将每一行Average的值的精度缩小到16位浮点数
data['Average'] = data['Average'].astype("float16")
# 按照 Average降序排序,覆盖以前的东西
data.sort_values("Average",ascending=False,inplace=True)
print(data)
# 降序排序后越靠前的行值就越大。data.iloc[x,y]代表data字典内第x行第y列(第y个属性)
# 这里的意思是在整个data范围内从第一个(降序,最大的)开始搜,搜到不对的了就停下
for i in range(len(data)):
if data.iloc[i, -1] != data.iloc[0,-1]:
break
else:
print(data.iloc[i,:])
# range(1,4)实际上就是1,2,3,对应语文数学英语三个列,cnt用户计数其中大于60的学生个数
for i in range(1,4):
cnt = 0
for j in range(len(data)):
if data.iloc[j,i]>=60:
cnt += 1
print(cnt)
# 将我们处理完的data输出
data.to_csv("E:\\private\\实验报告\\数据挖掘\\230905-1\\data1.csv")
2.截图:
【实验体会】
我从这次实验中学到了:用pandas库读取csv文件作为一个python数据对象,与将其逆向至一个csv文件,用pd.isnull()方法判断是否为空值;用DataFrame对象自带的drop_duplicates()对一列数据去重,为数据通过assign的方式添加属性列并指定初始值。更改数据类型,对数据排序。以及通过iloc方法通过下标的形式切分数据表。
收获良多、感触颇丰!
以下是原始的data1.csv表:
Id | Chinese | Math | English |
1 | 66 | 70 | 57 |
2 | 67 | 71 | 59 |
3 | 68 | 72 | 60 |
4 | 70 | 73 | 62 |
5 | 71 | 74 | 63 |
6 | 72 | 75 | 64 |
7 | 73 | 75 | 65 |
8 | 73 | 76 | 67 |
9 | 74 | 77 | 68 |
10 | 75 | 77 | 69 |
11 | 76 | 78 | 70 |
12 | 76 | 78 | 71 |
13 | 77 | 79 | 72 |
14 | 78 | 79 | 73 |
15 | 78 | 79 | 74 |
16 | 78 | 79 | 75 |
17 | 79 | 79 | 75 |
18 | 79 | 79 | 76 |
19 | 79 | 79 | 77 |
20 | 79 | 79 | 77 |
21 | 79 | 79 | 78 |
79 | 79 | 78 | |
23 | 79 | 78 | 79 |
24 | 79 | 78 | 79 |
25 | 79 | 77 | 79 |
79 | 77 | 79 | |
27 | 78 | 76 | 79 |
28 | 78 | 76 | 79 |
29 | 77 | 75 | 79 |
30 | 74 | 79 | |
31 | 76 | 73 | 79 |
32 | 75 | 72 | 79 |
33 | 74 | 71 | 78 |
73 | 70 | 78 | |
35 | 73 | 69 | 77 |
36 | 72 | 68 | 77 |
37 | 71 | 67 | 76 |
38 | 70 | 66 | 76 |
39 | 68 | 65 | 75 |
40 | 67 | 63 | 74 |
67 | 63 | 74 | |
42 | 65 | 61 | 72 |
43 | 64 | 59 | 71 |
44 | 62 | 58 | 70 |
45 | 62 | 58 | 70 |
46 | 60 | 55 | 68 |
58 | 54 | 67 | |
48 | 57 | 52 | 66 |
49 | 56 | 51 | 65 |
50 | 54 | 49 | 63 |
以下是处理完的data1.csv表:
Id | Chinese | Math | English | Average |
21 | 79 | 79 | 78 | 78.7 |
24 | 79 | 78 | 79 | 78.7 |
23 | 79 | 78 | 79 | 78.7 |
22 | 79 | 79 | 78 | 78.7 |
19 | 79 | 79 | 77 | 78.3 |
25 | 79 | 77 | 79 | 78.3 |
20 | 79 | 79 | 77 | 78.3 |
26 | 79 | 77 | 79 | 78.3 |
18 | 79 | 79 | 76 | 78 |
17 | 79 | 79 | 75 | 77.7 |
27 | 78 | 76 | 79 | 77.7 |
28 | 78 | 76 | 79 | 77.7 |
16 | 78 | 79 | 75 | 77.3 |
15 | 78 | 79 | 74 | 77 |
29 | 77 | 75 | 79 | 77 |
14 | 78 | 79 | 73 | 76.7 |
13 | 77 | 79 | 72 | 76 |
31 | 76 | 73 | 79 | 76 |
32 | 75 | 72 | 79 | 75.3 |
12 | 76 | 78 | 71 | 75 |
11 | 76 | 78 | 70 | 74.7 |
33 | 74 | 71 | 78 | 74.3 |
34 | 73 | 70 | 78 | 73.7 |
10 | 75 | 77 | 69 | 73.7 |
35 | 73 | 69 | 77 | 73 |
9 | 74 | 77 | 68 | 73 |
36 | 72 | 68 | 77 | 72.3 |
8 | 73 | 76 | 67 | 72 |
37 | 71 | 67 | 76 | 71.3 |
7 | 73 | 75 | 65 | 71 |
38 | 70 | 66 | 76 | 70.7 |
6 | 72 | 75 | 64 | 70.3 |
39 | 68 | 65 | 75 | 69.3 |
5 | 71 | 74 | 63 | 69.3 |
4 | 70 | 73 | 62 | 68.3 |
40 | 67 | 63 | 74 | 68 |
41 | 67 | 63 | 74 | 68 |
3 | 68 | 72 | 60 | 66.7 |
42 | 65 | 61 | 72 | 66 |
2 | 67 | 71 | 59 | 65.7 |
43 | 64 | 59 | 71 | 64.7 |
1 | 66 | 70 | 57 | 64.3 |
44 | 62 | 58 | 70 | 63.34 |
45 | 62 | 58 | 70 | 63.34 |
46 | 60 | 55 | 68 | 61 |
47 | 58 | 54 | 67 | 59.66 |
48 | 57 | 52 | 66 | 58.34 |
49 | 56 | 51 | 65 | 57.34 |
50 | 54 | 49 | 63 | 55.34 |
30 | 0 | 74 | 79 | 51 |