数据挖掘技术-检测与处理记录重复值

最新推荐文章于 2023-09-20 17:29:32 发布

知识世界

最新推荐文章于 2023-09-20 17:29:32 发布

阅读量537

点赞数

文章标签：数据挖掘 python 人工智能

本文链接：https://blog.csdn.net/u011062044/article/details/127453140

版权

网络技术专栏收录该内容

114 篇文章 27 订阅

订阅专栏

本文介绍了如何在Python中检测并处理数据重复值，通过对比列表去重、集合去重以及pandas的drop_duplicates方法。强调了pandas提供的drop_duplicates方法在保持数据原有顺序的同时，能有效地对DataFrame中的重复记录进行处理，适用于大数据分析场景，且支持按特定列去重。

摘要由CSDN通过智能技术生成

检测与处理记录重复值

准备数据

准备数据detail.csv，将数据文件detail.csv放到Linux本地的/course/DataAnalyze/data目录。

检测处理记录重复

菜品订单详情表中的dishes_name特征，存放了每个订单的菜品。为找出所有已点菜品，最简单的方法就是利用去重操作实现。方法一是利用列表（list）去重，如代码 41所示。

代码 41 利用list去重

In[1]:

import os

import pandas as pd

os.chdir('/course/DataAnalyze/data')

detail = pd.read_csv('./detail.csv',index_col=0,encoding = 'gbk', engine = 'python')

##方法一

##定义去重函数

def delRep(list1):

list2=[]

for i in list1:

if i not in list2:

list2.append(i)

return list2

dishes=list(detail['dishes_name']) ##将dishes_name从数据框中提取出来

print('去重前菜品总数为：',len(dishes))

dish = delRep(dishes) ##使用自定义的去重函数去重

print('方法一去重后菜品总数为：',len(dish))

Out[1]:

去重前菜品总数为： 1546

方法一去重后菜品总数为：145

除了使用代码 41中的方法一去重之外，还可以利用集合（set）的元素是唯一的特性去重，此方法为方法二，如代码 42所示。

代码 42 利用set的特性去重

In[2]:

##方法二

print('去重前菜品总数为：',len(dishes))

dish_set = set(dishes) ##利用set的特性去重

print('方法二去重后菜品总数为：',len(dish_set))

Out[2]:

去重前菜品总数为： 1546

方法二去重后菜品总数为：145

比较上述两种方法可以发现，未使用集合元素唯一性这一特性去重的方法明显代码冗长，会拖慢数据分析的整体进度。使用集合元素唯一性去重的方法，看似代码简单了许多，但是这种方法的最大问题是会导致数据的排列发生改变，如表 41所示。

表 41 不同方法去重前后的部分数据排列比较

源数据	方法一去重后数据	方法二去重后数据
蒜蓉生蚝	蒜蓉生蚝	纸杯蛋糕
蒙古烤羊腿	蒙古烤羊腿	爆炒鳝碌
大蒜苋菜	大蒜苋菜	黄尾袋鼠西拉子红葡萄酒
芝麻烤紫菜	芝麻烤紫菜	白斩鸡
蒜香包	蒜香包	香菇鸡肉粥
白斩鸡	白斩鸡	农夫山泉NFC果汁100%橙汁