第1关:缺失值处理
任务描述
本关任务:使用 python3 对实例数据中的变量做缺失值处理,梳理数据分析的流程。
相关知识
为了完成本关任务,你需要掌握: 1.缺失数据处理的方法; 2.pandas 处理真实数据技巧。
#coding:utf8
import pandas as pd
def clear_null_user(user_data):
user_data['age'] = user_data['age'].fillna('未知')
user_data['sex'] = user_data['sex'].fillna(-1)
return user_data
def clear_null_action(action_data):
action_data['model_id'] = action_data['model_id'].fillna(-1)
return action_data
第2关:重复值处理
任务描述
本关任务:对数据集的重复数据进行处理。
相关知识
为了完成本关任务,你需要掌握:重复值的处理方法。
#coding:utf8
import pandas as pd
def drop_duplicate_value(data):
data = data.drop_duplicates()
return data
第3关:异常值处理
任务描述
本关任务:对数据集的异常值进行处理。
相关知识
为了完成本关任务,你需要掌握: 1.python 中数据透视表的使用方法; 2.异常值检测和处理方法; 3.python 处理异常值技巧。
#coding:utf8
import pandas as pd
def delete_unnormal(action_data,user_data):
user_data = user_data[user_data['user_id'].isin(action_data['user_id'])]
inactive_users = action_data[action_data['type'] == 1]['user_id'].value_counts()[action_data[action_data['type'] == 1]['user_id'].value_counts() < 10].index.tolist()
user_data = user_data[~user_data['user_id'].isin(inactive_users)]
return user_data