大数据之学习成绩处理案例
来自学了两天python的NewBee-Yunzi的第一个案例总结:
这个案例学习如何处理数据表中的重复值,异常值,空值,空格,根据条件对值进行分级。
有这么个数据表:
学号 姓名 性别 英语 体育 军训 数分 高代 解几
2308024241 成龙 男 76 78 77 40 23 60
2308024244 周怡 女 66 91 75 47 47 44
2308024251 张波 男 85 81 75 45 45 60
2308024249 朱浩 男 65 50 80 72 62 71
2308024219 封印 女 73 88 92 61 47 46
2308024201 迟培 男 60 50 89 71 76 71
2308024347 李华 女 67 61 84 61 65 78
2308024307 陈田 男 76 79 86 69 40 69
2308024326 余皓 男 66 67 85 65 61 71
2308024320 李嘉 女 62 作弊 90 60 67 77
2308024342 李上初 男 76 90 84 60 66 60
2308024310 郭窦 女 79 67 84 64 64 79
2308024435 姜毅涛 男 77 71 缺考 61 73 76
2308024432 赵宇 男 74 74 88 68 70 71
2308024446 周路 女 76 80 61 74 80
2308024421 林建祥 男 72 72 81 63 90 75
2308024433 李大强 男 79 76 77 78 70 70
2308024428 李侧通 男 64 96 91 69 60 77
2308024402 王慧 女 73 74 93 70 71 75
2308024422 李晓亮 男 85 60 85 72 72 83
2308024201 迟培 男 60 50 89 71 76 71
1.导入数据
import pandas as pd #导入pandas库取名pd
df = pd.read_excel('./rz.xlsx') #读表
df.shape #查看表的行列数(21 行 10 列)
out:(21, 10)
df#瞅一眼读进来的表
out:
学号 班级 姓名 性别 英语 体育 军训 数分 高代 解几
0 2308024241 23080242 成龙 男 76 78 77 40 23 60
1 2308024244 23080242 周怡 女 66 91 75 47 47 44
2 2308024251 23080242 张波 男 85 81 75 45 45 60
3 2308024249 23080242 朱浩 男 65 50 80 72 62 71
4 2308024219 23080242 封印 女 73 88 92 61 47 46
5 2308024201 23080242 迟培 男 60 50 89 71 76 71
6 2308024347 23080243 李华 女 67 61 84 61 65 78
7 2308024307 23080243 陈田 男 76 79 86 69 40 69
8 2308024326 23080243 余皓 男 66 67 85 65 61 71
9 2308024320 23080243 李嘉 女 62 作弊 90 60 67 77
10 2308024342 23080243 李上初 男 76 90 84 60 66 60
11 2308024310 23080243 郭窦 女 79 67 84 64 64 79
12 2308024435 23080244 姜毅涛 男 77 71 缺考 61 73 76
13 2308024432 23080244 赵宇 男 74 74 88 68 70 71
14 2308024446 23080244 周路 女 76 80 NaN 61 74 80
15 2308024421 23080244 林建祥 男 72 72 81 63 90 75
16 2308024433 23080244 李大强 男 79 76 77 78 70 70
17 2308024428 23080244 李侧通 男 64 96 91 69 60 77
18 2308024402 23080244 王慧 女 73 74 93 70 71 75
19 2308024422 23080244 李晓亮 男 85 60 85 72 72 83
20 2308024201 23080242 迟培 男 60 50 89 71 76 71
2.数据查重
df.duplicated()#重复的行返回布尔类型True ,这个重复指的是第二次及其以后出现的都是True,结果显示第20行为True,即重复
out:
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
10 False
11 False
12 False
13 False
14 False
15 False
16 False
17 False
18 False