总体思路:
1.拿到数据后,首先查看数据基本情况,筛选需要的列。
2.进行数据预处理:数据去重、缺失值处理、异常值处理【该案例中'price'列需要进行格式清洗与数据类型转换】
3.建模与评估:首先需要对数据进行Z-score标准化,然后进行训练集与测试集的划分,用训练集训练模型,用测试集预测和对模型评估。
知识总结:
【数据格式清洗与类型转换】
模版:
DataFrame['target_col'] = DataFrameDataFrame['target_col'].str.replace('old str', 'new str').astype(data_type)
【异常值的判断标准】
标准分判断(Zscore)
标准分:衡量数据距离均值多少个标准差;公式:(xi - xmean) / xstd
经验法则:约68%的数据位于距离均值1标准差范围内;约95%数据位于距离均值2标准差范围内;几乎全部数据位于距离均值3标准差范围内
模版:
z_score = (DataFrame['target_col'] - DataFrame['target_col'].mean()) / DataFrame['target_col'].std()
drop_index = DataFrame[z_score.abs() > 3].index
DataFrame.drop(drop_index, inplace = True)