做个存档
实验数据集目录下是某高校学生修读课程的成绩情况,需要对数据库相关(注:表格中《数据库系统技术及应用》和《数据库课程设计》是同一门课)课程成绩进行分析。请编写程序完成以下内容:
1. 将所有数据预处理后写到新的sheet页面"预处理"。预处理操作包括:
- 实体消歧:如《数据库系统技术及应用》和《数据库课程设计》是同一门课,课程名称要统一
- 数据脱敏:如学号、姓名等敏感信息,按照某种规则进行数据变形改造
- 预处理:有重修的同学,只要原始成绩(删除重修的记录行)
import pandas as pd
from string import ascii_letters, digits
from random import choices
file_path=r'数据库课程成绩.xls'
#读文件
df=pd.read_excel(file_path,sheet_name="原表")
p=pd.read_excel(file_path,sheet_name="原表")
writer = pd.ExcelWriter(file_path,engine='openpyxl')#用于写入多个sheet
#替换行名
# row_list=[]
for i in range(0,26):
# row_list.append(str(df.iat[1,i]))
df.rename(columns={'Unnamed: %s'%str(i):str(df.iat[1,i])},inplace=True)
df.drop(df.head(1).index,inplace=True) #删除第一二行
df.drop(df.head(2).index,inplace=True)
替换行名这一块折腾了很久,最后发现用iat可以找到具体行列的元素值
附iat官方文档
#删除重修
flags=df.重修标记
index0=3
for flag in flags:
if flag==1:
df.drop(df.head(index0).index,inplace=True)
index0+=1
#更改课程名
courses=df.课程名称
course_mapping={}
for course in courses:
if course=="数据库课程设计Course Design of Data":
course="数据库系统技术及应用"
course_mapping[course]=course
#数据脱敏
ids = df.学号
names = df.姓名
id_mapping = {si: ''.join(choices(digits, k=10)) for si in ids}
df.学号 = df.学号.map(id_mapping)
name_mapping = {name: ''.join(choices(ascii_letters, k=4)) for name in names}
df.姓名 = df.姓名.map(name_mapping)
df.课程名称 = df.课程名称.map(course_mapping)
#保存sheet
p.to_excel(writer,sheet_name="原表",index=False)
df.to_excel(writer, sheet_name="预处理",index=False)
writer.save()
writer.close()
sheet这边踩了很多坑,比如原sheet一直被覆盖,找到一个解决方法
但可能是因为没有导包就一直报错,嫌麻烦写了另一种,把原sheet也重新写入,然后保存