大数据之学习成绩处理案例(一)

本文是初学者使用Python和pandas处理学习成绩数据的实战案例,包括数据导入、查重、异常值处理、数据类型转换、计算总分、分段打标签及数据导出。通过对数据的清洗和分析,实现对学生学习表现的有效评估。
摘要由CSDN通过智能技术生成

大数据之学习成绩处理案例

来自学了两天python的NewBee-Yunzi的第一个案例总结:
这个案例学习如何处理数据表中的重复值,异常值,空值,空格,根据条件对值进行分级。
有这么个数据表:
学号 姓名 性别 英语 体育 军训 数分 高代 解几
2308024241 成龙 男 76 78 77 40 23 60
2308024244 周怡 女 66 91 75 47 47 44
2308024251 张波 男 85 81 75 45 45 60
2308024249 朱浩 男 65 50 80 72 62 71
2308024219 封印 女 73 88 92 61 47 46
2308024201 迟培 男 60 50 89 71 76 71
2308024347 李华 女 67 61 84 61 65 78
2308024307 陈田 男 76 79 86 69 40 69
2308024326 余皓 男 66 67 85 65 61 71
2308024320 李嘉 女 62 作弊 90 60 67 77
2308024342 李上初 男 76 90 84 60 66 60
2308024310 郭窦 女 79 67 84 64 64 79
2308024435 姜毅涛 男 77 71 缺考 61 73 76
2308024432 赵宇 男 74 74 88 68 70 71
2308024446 周路 女 76 80 61 74 80
2308024421 林建祥 男 72 72 81 63 90 75
2308024433 李大强 男 79 76 77 78 70 70
2308024428 李侧通 男 64 96 91 69 60 77
2308024402 王慧 女 73 74 93 70 71 75
2308024422 李晓亮 男 85 60 85 72 72 83
2308024201 迟培 男 60 50 89 71 76 71

1.导入数据

import pandas as pd #导入pandas库取名pd
df = pd.read_excel('./rz.xlsx') #读表
df.shape  #查看表的行列数(21 行 10 列) 

out:(21, 10)

df#瞅一眼读进来的表

out:
学号 班级 姓名 性别 英语 体育 军训 数分 高代 解几
0 2308024241 23080242 成龙 男 76 78 77 40 23 60
1 2308024244 23080242 周怡 女 66 91 75 47 47 44
2 2308024251 23080242 张波 男 85 81 75 45 45 60
3 2308024249 23080242 朱浩 男 65 50 80 72 62 71
4 2308024219 23080242 封印 女 73 88 92 61 47 46
5 2308024201 23080242 迟培 男 60 50 89 71 76 71
6 2308024347 23080243 李华 女 67 61 84 61 65 78
7 2308024307 23080243 陈田 男 76 79 86 69 40 69
8 2308024326 23080243 余皓 男 66 67 85 65 61 71
9 2308024320 23080243 李嘉 女 62 作弊 90 60 67 77
10 2308024342 23080243 李上初 男 76 90 84 60 66 60
11 2308024310 23080243 郭窦 女 79 67 84 64 64 79
12 2308024435 23080244 姜毅涛 男 77 71 缺考 61 73 76
13 2308024432 23080244 赵宇 男 74 74 88 68 70 71
14 2308024446 23080244 周路 女 76 80 NaN 61 74 80
15 2308024421 23080244 林建祥 男 72 72 81 63 90 75
16 2308024433 23080244 李大强 男 79 76 77 78 70 70
17 2308024428 23080244 李侧通 男 64 96 91 69 60 77
18 2308024402 23080244 王慧 女 73 74 93 70 71 75
19 2308024422 23080244 李晓亮 男 85 60 85 72 72 83
20 2308024201 23080242 迟培 男 60 50 89 71 76 71

2.数据查重

df.duplicated()#重复的行返回布尔类型True ,这个重复指的是第二次及其以后出现的都是True,结果显示第20行为True,即重复

out:
0 False
1 False
2 False
3 False
4 False
5 False
6 False
7 False
8 False
9 False
10 False
11 False
12 False
13 False
14 False
15 False
16 False
17 False
18 False

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值