重复值处理 • 数据清洗一般先从重复值和缺失值开始处理 • 重复值一般采取删除法来处理 • 但有些重复值不能删除,例如订单明细数据或交易明细数据等 import pandas as pd import numpy as np import os os.chdir(r'C:\Users\56281\Desktop\数据分析\Python数据清洗实战入门\数据清洗课程材料\代码和数据') df=pd.read_csv('MotorcycleData.csv',encoding='gbk',na_values='Na')#把Na当成缺失值,显示为NaN df.head() def f(x): if "$" in str(x): x=str(x).strip('$') x=str(x).replace(',','') else: x=str(x).replace(',','') return float(x) #构建去除$和,的函数 df['Price'] = df['Price'] .apply(f) df['Mileage'] = df['Mileage'].apply(f) df.duplicated()#查看每一行是否有重复数据 any(df.duplicated())#查看是否有任何一列重复值(True) np.sum(df.duplicated())#统计下总共多少重复数据 df