如果需要清洗用户画像的表,该怎么处理?
加载数据可以发现用户id是重复的,因此把字段筛选出来以后要做去重处理。
首先把要的字段筛选出来,这时没做去重数据条数还是很多:
使用drop_duplicates()函数后, 用户id变成唯一值了:
因为重复数据被删掉了,索引已经乱了,所以要用reset_index()重新加索引:
可以下结论:下单用户总共是5890名。
这份数据的其他分析场景:
如果需要清洗用户画像的表,该怎么处理?
加载数据可以发现用户id是重复的,因此把字段筛选出来以后要做去重处理。
首先把要的字段筛选出来,这时没做去重数据条数还是很多:
使用drop_duplicates()函数后, 用户id变成唯一值了:
因为重复数据被删掉了,索引已经乱了,所以要用reset_index()重新加索引:
可以下结论:下单用户总共是5890名。
这份数据的其他分析场景: