Pandas解决excel数据脱敏和导入新sheet不覆盖原sheet

最新推荐文章于 2024-06-01 16:02:06 发布

绝世无敌大帅比

最新推荐文章于 2024-06-01 16:02:06 发布

阅读量1.8k

点赞数 4

文章标签： python pandas

本文链接：https://blog.csdn.net/agrostemma/article/details/121601741

版权

该博客介绍了如何对高校学生课程成绩数据进行预处理，包括实体消歧（统一课程名称），数据脱敏（学号、姓名），以及删除重修记录。程序实现了将处理后的数据保存到新的Excel sheet页‘预处理’，同时保留原数据。博客内容涉及到数据处理技巧和Python pandas库的使用。

摘要由CSDN通过智能技术生成

做个存档

实验数据集目录下是某高校学生修读课程的成绩情况，需要对数据库相关（注：表格中《数据库系统技术及应用》和《数据库课程设计》是同一门课）课程成绩进行分析。请编写程序完成以下内容：

1. 将所有数据预处理后写到新的sheet页面"预处理"。预处理操作包括：

实体消歧：如《数据库系统技术及应用》和《数据库课程设计》是同一门课，课程名称要统一
数据脱敏：如学号、姓名等敏感信息，按照某种规则进行数据变形改造
预处理：有重修的同学，只要原始成绩（删除重修的记录行）

import pandas as pd
from string import ascii_letters, digits
from random import choices

file_path=r'数据库课程成绩.xls'
#读文件
df=pd.read_excel(file_path,sheet_name="原表")
p=pd.read_excel(file_path,sheet_name="原表")
writer = pd.ExcelWriter(file_path,engine='openpyxl')#用于写入多个sheet

#替换行名
# row_list=[]
for i in range(0,26):
    # row_list.append(str(df.iat[1,i]))
    df.rename(columns={'Unnamed: %s'%str(i):str(df.iat[1,i])},inplace=True)
df.drop(df.head(1).index,inplace=True) #删除第一二行
df.drop(df.head(2).index,inplace=True)

替换行名这一块折腾了很久，最后发现用iat可以找到具体行列的元素值

附iat官方文档

网友iat，at，iloc，loc分析

#删除重修
flags=df.重修标记
index0=3
for flag in flags:
    if flag==1:
        df.drop(df.head(index0).index,inplace=True)
    index0+=1

#更改课程名
courses=df.课程名称
course_mapping={}
for course in courses:
    if course=="数据库课程设计Course Design of Data":
        course="数据库系统技术及应用"
    course_mapping[course]=course
    
#数据脱敏
ids = df.学号
names = df.姓名
id_mapping = {si: ''.join(choices(digits, k=10)) for si in ids}
df.学号 = df.学号.map(id_mapping)
name_mapping = {name: ''.join(choices(ascii_letters, k=4)) for name in names}
df.姓名 = df.姓名.map(name_mapping)
df.课程名称 = df.课程名称.map(course_mapping)

#保存sheet
p.to_excel(writer,sheet_name="原表",index=False)
df.to_excel(writer, sheet_name="预处理",index=False)
writer.save()
writer.close()

sheet这边踩了很多坑，比如原sheet一直被覆盖，找到一个解决方法

用python进行表格合并

但可能是因为没有导包就一直报错，嫌麻烦写了另一种，把原sheet也重新写入，然后保存

绝世无敌大帅比

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Pandas解决excel数据脱敏和导入新sheet不覆盖原sheet

做个存档实验数据集目录下是某高校学生修读课程的成绩情况，需要对数据库相关（注：表格中《数据库系统技术及应用》和《数据库课程设计》是同一门课）课程成绩进行分析。请编写程序完成以下内容：1. 将所有数据预处理后写到新的sheet页面"预处理"。预处理操作包括：实体消歧：如《数据库系统技术及应用》和《数据库课程设计》是同一门课，课程名称要统一数据脱敏：如学号、姓名等敏感信息，按照某种规则进行数据变形改造预处理：有重修的同学，只要原始成绩（删除重修的记录行）import pandas a
复制链接

扫一扫