Pandas解决excel数据脱敏和导入新sheet不覆盖原sheet

该博客介绍了如何对高校学生课程成绩数据进行预处理,包括实体消歧(统一课程名称),数据脱敏(学号、姓名),以及删除重修记录。程序实现了将处理后的数据保存到新的Excel sheet页‘预处理’,同时保留原数据。博客内容涉及到数据处理技巧和Python pandas库的使用。
摘要由CSDN通过智能技术生成

做个存档

实验数据集目录下是某高校学生修读课程的成绩情况,需要对数据库相关(注:表格中《数据库系统技术及应用》和《数据库课程设计》是同一门课)课程成绩进行分析。请编写程序完成以下内容:

1. 将所有数据预处理后写到新的sheet页面"预处理"。预处理操作包括:

  • 实体消歧:如《数据库系统技术及应用》和《数据库课程设计》是同一门课,课程名称要统一
  • 数据脱敏:如学号、姓名等敏感信息,按照某种规则进行数据变形改造
  • 预处理:有重修的同学,只要原始成绩(删除重修的记录行)

import pandas as pd
from string import ascii_letters, digits
from random import choices
file_path=r'数据库课程成绩.xls'
#读文件
df=pd.read_excel(file_path,sheet_name="原表")
p=pd.read_excel(file_path,sheet_name="原表")
writer = pd.ExcelWriter(file_path,engine='openpyxl')#用于写入多个sheet
#替换行名
# row_list=[]
for i in range(0,26):
    # row_list.append(str(df.iat[1,i]))
    df.rename(columns={'Unnamed: %s'%str(i):str(df.iat[1,i])},inplace=True)
df.drop(df.head(1).index,inplace=True) #删除第一二行
df.drop(df.head(2).index,inplace=True)

替换行名这一块折腾了很久,最后发现用iat可以找到具体行列的元素值

附iat官方文档

网友iat,at,iloc,loc分析

#删除重修
flags=df.重修标记
index0=3
for flag in flags:
    if flag==1:
        df.drop(df.head(index0).index,inplace=True)
    index0+=1

#更改课程名
courses=df.课程名称
course_mapping={}
for course in courses:
    if course=="数据库课程设计Course Design of Data":
        course="数据库系统技术及应用"
    course_mapping[course]=course
    
#数据脱敏
ids = df.学号
names = df.姓名
id_mapping = {si: ''.join(choices(digits, k=10)) for si in ids}
df.学号 = df.学号.map(id_mapping)
name_mapping = {name: ''.join(choices(ascii_letters, k=4)) for name in names}
df.姓名 = df.姓名.map(name_mapping)
df.课程名称 = df.课程名称.map(course_mapping)
#保存sheet
p.to_excel(writer,sheet_name="原表",index=False)
df.to_excel(writer, sheet_name="预处理",index=False)
writer.save()
writer.close()

sheet这边踩了很多坑,比如原sheet一直被覆盖,找到一个解决方法

用python进行表格合并

但可能是因为没有导包就一直报错,嫌麻烦写了另一种,把原sheet也重新写入,然后保存

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值