使用python处理excel表格——pandas（2）

最新推荐文章于 2024-05-06 21:40:02 发布

VIP文章 mmmmmyyyy

最新推荐文章于 2024-05-06 21:40:02 发布

阅读量510

点赞数

分类专栏：数据处理文章标签： python excel

本文链接：https://blog.csdn.net/mmmmmyyyy/article/details/107661584

版权

一.基本概念

二.内容

4.处理重复数据

A.找出重复数据

（1）判断是否有重复数据

import pandas as pd
people=pd.read_excel('D:/people.xlsx')
dupe=people.duplicated(subset=['名称','数量'])#判断的依据字段
print(dupe.any())#判断是否存在重复
print(dupe)#判断哪行是重复的

结果为true，表明为重复行

（2）判断有多少个重复数据

import pandas as pd
people=pd.read_excel('D:/people.xlsx')
dupe=people.duplicated(subset=['名称','数量'])
print(type(dupe))#判断dupe的数据类型
dupe=dupe[dupe==True]#将true过滤出来
#可以简写成dupe=dupe[dupe]，dupe为布尔变量
print(people.iloc[dupe.index])#
#iloc=index location应用index定位

B.剔除重复数据

import pandas as pd
people=pd.read_excel('D:/people.xlsx')
#去除重复数据
#subset为依据的字段，inplace表明是在该表中进行处理
#keep表明有重复的数据保留第一个（first）和最后的（last）
people.drop_duplicates(subset=['名称','数量'],inplace=True,keep='last')
print(people)

5.合并表格

在“D:/表格”下有两个表格，想要实现的是将这两个表格数据合并。

import pandas as pd
import os
file_dir=r'D:/表格'

最低0.47元/天解锁文章

mmmmmyyyy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用python处理excel表格——pandas（2）

1.基本概念2.内容(4)处理重复数据A.找出重复数据- 判断是否有重复数据import pandas as pdpeople=pd.read_excel('D:/people.xlsx')dupe=people.duplicated(subset=['名称','数量'])#判断的依据字段print(dupe.any())#判断是否存在重复print(dupe)#判断哪行是重复的结果为true，表明为重复行- 判断有多少个重复数据import pandas as pdpeople
复制链接

扫一扫