python数据清洗--数据预处理

最新推荐文章于 2024-05-30 19:20:04 发布

qiuqiu1027

最新推荐文章于 2024-05-30 19:20:04 发布

阅读量1.9k

点赞数 1

分类专栏：商业分析 python代码

本文链接：https://blog.csdn.net/qiuqiu1027/article/details/104998925

版权

1. 重复值处理

• 数据清洗一般先从重复值和缺失值开始处理
• 重复值一般采取删除法来处理
• 但有些重复值不能删除，例如订单明细数据或交易明细数据等

df.head(5)
#对价格和里程数数据进行处理
# 自定义一个函数
def f(x):
    if '$' in str(x):
        x = str(x).strip('$')
        x = str(x).replace(',','')
    else:
        x = str(x).replace(',','')
    return float(x)
df['Price'] =  df['Price'] .apply(f)
df['Mileage'] = df['Mileage'].apply(f)
print ('数据集是否存在重复观测: \n', any(df.duplicated()))
df[df.duplicated()] #查看那些数据重复
np.sum(df.duplicated()) #计算重复数量
df.drop_duplicates() #删除所有变量都重复的行, 注意没有加inplace = True
df.drop_duplicates(subset= ['Condition','Condition_Desc','Price','Location'],inplace=True) #按照两个变量重复来来去重
df.info()

2. 缺失值处理

• 缺失值首先需要根据实际情况定义
• 可以采取直接删除法
• 有时候需要使用替换法或者插值法
• 常用的替换法有均值替换、前向、后向替换和常数替换

最低0.47元/天解锁文章

qiuqiu1027

关注

1
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
python数据清洗--数据预处理

1. 重复值处理• 数据清洗一般先从重复值和缺失值开始处理• 重复值一般采取删除法来处理• 但有些重复值不能删除，例如订单明细数据或交易明细数据等df.head(5)#对价格和里程数数据进行处理# 自定义一个函数def f(x): if '$' in str(x): x = str(x).strip('$') x = str(x).replac...
复制链接

扫一扫

专栏目录