Datawhale task1打卡——二手车价格预测
task1 目录
1.1 赛题概况
根据二手车若干特征预测价格,比赛详情及数据来源
1.2 数据概况
1.2.1 数据维度
训练集:250000个样本,每个样本具有40个特征,其中特征‘price’为预测的目标特征
测试集:50000个样本, 每个样本39个已知特征,目标特征‘price’缺失
1.2.2 特征说明
1.2.3 数据缺失度
39个已知特征中,有4个特征存在缺失值:
bodyType:
fuelType:
gearbox:
notRepairedDamage:
1.3 预测指标
特征price
1.4 分析赛题
本题目重点需要研究:
- 哪些特征与目标相关,哪些是冗余特征,无需考虑
- 该数据是否与时间相关?若是,可从时序模型入手探索;若不是,可从回归模型入手探索。
1.5 代码示例
查看数据部分参考kaggle房价预测大佬代码
引用库 ↓
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report
%matplotlib inline
查看数据 ↓
df_train = pd.read_csv('./car_train_0110.csv',sep=' ')
df_test = pd.read_csv('./car_testA_0110.csv',sep=' ')
df_train.shape,df_test.shape
预测特征
数据类型查看 ↓
df_train.info()
数据缺失情况查看 ↓
df_train.describe()
统计缺失特征 ↓
# find na
tmp = df_train.isnull().any()
tmp[tmp.values==True]
可视化缺失情况 ↓
# Top 4 features with missing data
sns.set_style("whitegrid")
plt.style.use('fivethirtyeight')
plt.figure(figsize=(15,4))
df=pd.Series(1 - df_train.count() / len(df_train)).sort_values(ascending=False).head(4)
sns.barplot(x=df.index, y=df,palette="Blues_d")
plt.xticks(rotation=90)