目录
一.基本概念
二.内容
4.处理重复数据
A.找出重复数据
(1) 判断是否有重复数据
import pandas as pd
people=pd.read_excel('D:/people.xlsx')
dupe=people.duplicated(subset=['名称','数量'])#判断的依据字段
print(dupe.any())#判断是否存在重复
print(dupe)#判断哪行是重复的
结果为true,表明为重复行
(2)判断有多少个重复数据
import pandas as pd
people=pd.read_excel('D:/people.xlsx')
dupe=people.duplicated(subset=['名称','数量'])
print(type(dupe))#判断dupe的数据类型
dupe=dupe[dupe==True]#将true过滤出来
#可以简写成dupe=dupe[dupe],dupe为布尔变量
print(people.iloc[dupe.index])#
#iloc=index location应用index定位
B.剔除重复数据
import pandas as pd
people=pd.read_excel('D:/people.xlsx')
#去除重复数据
#subset为依据的字段,inplace表明是在该表中进行处理
#keep表明有重复的数据保留第一个(first)和最后的(last)
people.drop_duplicates(subset=['名称','数量'],inplace=True,keep='last')
print(people)
5.合并表格
在“D:/表格”下有两个表格,想要实现的是将这两个表格数据合并。
import pandas as pd
import os
file_dir=r'D:/表格'