Excel VS Python 第三期——重复值处理

最新推荐文章于 2023-08-09 15:47:31 发布

Yif18

最新推荐文章于 2023-08-09 15:47:31 发布

阅读量582

点赞数

分类专栏：手把手陪你学Python Excel VS Python 文章标签： python excel 数据分析

本文链接：https://blog.csdn.net/Yif18/article/details/118888381

版权

手把手陪你学Python 同时被 2 个专栏收录

22 篇文章 6 订阅

订阅专栏

Excel VS Python

9 篇文章 0 订阅

订阅专栏

这几天气温超高，大家要注意防暑，当然也要记得运动完千万别直接吃冰淇淋也千万别猛吹空调，不然就会拉肚子加热伤风

今天要为大家介绍如何使用Excel 和 Python处理数据集中的重复值

案例数据继续使用UCI的红酒质量评分数据集，字段“ID”为调查样本的唯一标识

需要完成的任务是检测并删除重复的调查样本

知识点6：检测重复值

Excel

选中“ID”列，开始——条件格式——突出显示单元格规则——重复值——确定

Python

import pandas as pd   #载入pandas库
data = pd.read_excel('C:/Users/dell-pc/Desktop/data.xlsx')   #读取Excel文件数据
data.head(5)   #显示前5行数据
data["ID"].value_counts()   #通过对“ID”进行计数来检测是否存在重复情况

知识点7：删除重复值

Excel

数据——数据工具——删除重复项——勾选“ID”——确定

Python

data.drop_duplicates(subset = "ID", keep = "first", inplace = True)   #删除ID重复的数据行,但保留重复数据中的第一行
data.head(5)   #显示删除重复值后的前5行数据
data["ID"].value_counts()   #再通过对“ID”进行计数来检测是否还存在重复情况

参数名称	参数用途
subset	用于指定按哪个变量的重复值删除数据行，默认为”None“，即仅当两行数据完全相同时才进行删除
keep	用于指定保留重复数据中的第一行（first）或最后一行（last），默认为”first“