将多个excel文件中的数据合并(补全)

由于对数据处理不是很熟悉,在此记录一下平时的一些实现(尽管很简单,对于小白来说还是需要一定的时间)。

问题描述

目前有多个excel表格,每个表格都有一些空缺值。如下所示:
在这里插入图片描述
在这里插入图片描述
这两张表格里的内容是互补的,那如何实现如下所示的效果:
在这里插入图片描述

数据补全(对NAN值进行处理)

一般在数据处理中,对NAN值处理是比较常见的了。因此想到使用DataFrame.fillna()函数。

函数

函数形式:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

参数:

value:用于填充的空值的值。

method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定义了填充空值的方法, pad / ffill表示用前面行/列的值,填充当前行/列的空值, backfill / bfill表示用后面行/列的值,填充当前行/列的空值。

axis:轴。0或’index’,表示按行删除;1或’columns’,表示按列删除。

inplace:是否原地替换。布尔值,默认为False。如果为True,则在原DataFrame上进行操作,返回值为None。

limit:int, default None。如果method被指定,对于连续的空值,这段连续区域,最多填充前 limit 个空值(如果存在多段连续区域,每段最多填充前 limit 个空值)。如果method未被指定, 在该axis下,最多填充前 limit 个空值(不论空值连续区间是否间断)

downcast:dict, default is None,字典中的项为,为类型向下转换规则。或者为字符串“infer”,此时会在合适的等价类型之间进行向下转换,比如float64 to int64 if possible。

具体实现
import csv
import pandas as pd
'''
以1.xlsx为基准。
分别读取两个表中的内容,并且转换为DataFrame标准格式
打印出data1 data2的内容,发现出现NAN值,考虑使用fillna()函数处理
将2.xlsx中的内容(即data2)补全1.xlsx中的NAN
打印data1的值 即就是所需要的结果,将其结果写入(write)到文件中
注意:data1的格式是DataFrame,如果保存为excel格式,会出现无法写入的情况,所以此处使用csv格式
'''

path=r'F:\z\3.csv'
data1= pd.DataFrame(pd.read_excel(r'F:\z\1.xlsx'))
data2=pd.DataFrame(pd.read_excel(r'F:\z\2.xlsx'))

print(data1)
print(data2)
data1.fillna(value=data2,inplace = True)
print(data1)

with open(path,'w',newline='') as f:
    data1.to_csv(f)
去除重复值

重第三张图中可以看到,“学号”有重复的,因为每个人的学号是独一无二的(不考虑其他信息),所以可以以“学号”为去重指标。在之前的代码上稍作修改即可。

data3= data1.drop_duplicates(subset='学号')
print(type(data3))
with open(path,'w',newline='') as f:
    data3.to_csv(f)
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值