DataWhale数据挖掘（二手车价格预测）第二次打卡

最新推荐文章于 2024-04-06 00:31:25 发布

JerryZengZ

最新推荐文章于 2024-04-06 00:31:25 发布

阅读量347

点赞数

分类专栏：总结打卡文章标签：数据挖掘 DataWhale 机器学习

本文链接：https://blog.csdn.net/JerryZengZ/article/details/105069962

版权

总结同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

打卡

8 篇文章 0 订阅

订阅专栏

数据分析

前言：

EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。
引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。

载入各种数据科学以及可视化库

（都是使用常用的库）
在这里插入图片描述

载入数据

#seq=','表示将分隔符设为逗号，默认的分隔符是逗号
# dataSample=pd.read_csv('used_car_sample_submit.csv',sep=',')
#seq=' '表示将分隔符设为空格，默认的分隔符是逗号,csv文件打开后是按照空格分隔开的，因此需要按照空格分割进行读取
dataTrain=pd.read_csv('used_car_train_20200313.csv',sep=' ')
dataTest=pd.read_csv('used_car_testA_20200313.csv',sep=' ')

总览数据概况

（查看头五行，shape、describe等）

#载入数据后，sample数据是两列，一列表示SaleID（唯一标识），第二列表示对应的预测价格
print('***************************************************************************')
print(dataTrain.head(3))
print(dataTest.head(3))
print('**************************************************************************')
print(dataTrain.tail(3))
print(dataTest.tail(3))

print(dataTrain.shape)
print(dataTest.shape)
#训练数据为15w*31,测试数据为5w*30
#训练数据多一列price

dataTrain.describe()
dataTest.describe()

判断数据缺失和异常

#判断列缺失
print(dataTrain.isnull().any())
print(dataTest.isnull().any())
#判断行缺失
# print(dataTrain.isnull().any(axis=1))
# print(dataTest.isnull().any(axis=1))

#可视化缺失情况
missing=dataTrain.isnull().sum()
missing=missing[missing>0]
print(missing)
missing.sort_values(inplace=True)  #对missing变量进行修改，inplace=true
print(missing)
missing.plot.bar()

（可视化方法有很多：https://blog.csdn.net/Andy_shenzl/article/details/81633356）
在这里插入图片描述

print(dataTrain['notRepairedDamage'].value_counts())
print(dataTest['notRepairedDamage'].value_counts())

#-也为缺失值，因此将-替换为nan
dataTrain['notRepairedDamage'].replace('-',np.nan,inplace=True)
print(dataTrain['notRepairedDamage'].value_counts())
dataTest['notRepairedDamage'].replace('-',np.nan,inplace=True)
print(dataTest['notRepairedDamage'].value_counts())

print(dataTrain.isnull().sum())
print(dataTest.isnull().sum())

#数据异常分析：属性值严重偏斜
dataTrain['seller'].value_counts()
dataTrain['offerType'].value_counts()
dataTest['seller'].value_counts()
dataTest['offerType'].value_counts()
#异常处理：删除
del dataTrain['seller']
del dataTrain['offerType']
del dataTest['seller']
del dataTest['offerType']

了解预测值的分布

dataTrain['price']

print(dataTrain['price'].value_counts())

#统计计算库
import scipy.stats as st

y=dataTrain['price']
plt.figure(1);plt.title('Johnson SU');sns.distplot(y,kde=False,fit=st.johnsonsu)
plt.figure(2);plt.title('Norm');sns.distplot(y,kde=False,fit=st.norm)
plt.figure(3);plt.title('Log Norm');sns.distplot(y,kde=False,fit=st.lognorm)
#价格不服从正态分布，所以在进行回归之前，它必须进行转换。虽然对数变换做得很好，但最佳拟合是无界约翰逊分布

sns.distplot(dataTrain['price'])
#查看skewness(偏度) 和 kurtosis（峰度）
#偏度是描述数据分布形态的统计量，其描述的是某总体取值分布的对称性，简单来说就是数据的不对称程度
#峰度是描述某变量所有取值分布形态陡缓程度的统计量，简单来说就是数据分布顶的尖锐程度
print("Skewness:%f"%dataTrain['price'].skew())
print("Kurtosis:%f"%dataTrain['price'].kurt())
#偏度大于0，右偏
#峰度大于0，尖峰

#查看预测值的分布hist图
plt.hist(dataTrain['price'],orientation='vertical',histtype='bar',color='r')
plt.show()
#price分布可以看出，大于20000的较少，可以选择删除或者替换。

#log变换后呈现正态分布（预测问题常用trick）
plt.hist(np.log(dataTrain['price']),orientation='vertical',histtype='bar',color='g')
plt.show()

在这里插入图片描述

特征分为类别特征和数字特征，并对类别特征查看unique分布

1、了解属性含义
2、特征个数

name - 汽车编码
regDate - 汽车注册时间
model - 车型编码
brand - 品牌
bodyType - 车身类型
fuelType - 燃油类型
gearbox - 变速箱
power - 汽车功率
kilometer - 汽车行驶公里
notRepairedDamage - 汽车有尚未修复的损坏
regionCode - 看车地区编码
seller - 销售方【以删】
offerType - 报价类型【以删】
creatDate - 广告发布时间
price - 汽车价格
v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’(根据汽车的评论、标签等大量信息得到的embedding向量)【人工构造匿名特征】

#分离lable，预测值
Y_train=dataTrain['price']
list(dataTrain.columns)

#将特征进行分离：数字特征和类别特征
numericFeatures=['power','kilometer','v_0','v_1','v_2','v_3','v_4','v_5',
                 'v_6','v_7','v_8','v_9','v_10','v_11','v_12','v_13','v_14']
categoricalFeatures=['name',
 'model',
 'brand',
 'bodyType',
 'fuelType',
 'gearbox',
 'notRepairedDamage',
 'regionCode',]
#类别特征分析

#特征unique分布
for catFea in categoricalFeatures:
    print(catFea+"的特征如下：")
    print("{}的特征有{}个不同的值".format(catFea,dataTrain[catFea].nunique()))
#     print(dataTrain[catFea].value_counts())

数字特征分析

#数字特征分析

#1、相关性分析：
numericFeatures.append('price')
print(numericFeatures)
priceNumeric=dataTrain[numericFeatures]
correlation=priceNumeric.corr()
print(correlation['price'].sort_values(ascending=False),'\n')

#热力图展示
f,ax=plt.subplots(figsize=(7,7))
plt.title("correlation of numeric Features with price ",y=1,size=16)
sns.heatmap(correlation,square=True,vmax=0.8)

#查看数字的分布
f=pd.melt(dataTrain,value_vars=numericFeatures)
g=sns.FacetGrid(f,col='variable',col_wrap=2,sharex=False,sharey=False)
g=g.map(sns.distplot,"value")

#数字特征之间的关系
sns.set()
columns=['price','v_12','v_8','v_0','power','v_5','v_2','v_6','v_1','v_14']
sns.pairplot(dataTrain[columns],size=2,kind='scatter',diag_kind='kde')
plt.show()

#多变量互相关系回归可视化
fig, ((ax1, ax2), (ax3, ax4), (ax5, ax6), (ax7, ax8), (ax9, ax10)) = plt.subplots(nrows=5, ncols=2)

# ['v_12', 'v_8' , 'v_0', 'power', 'v_5', 'v_2', 'v_6', 'v_1', 'v_14']
v_12_scatter_plot = pd.concat([Y_train,dataTrain['v_12']],axis = 1)
sns.regplot(x='v_12',y = 'price', data = v_12_scatter_plot,scatter= True, fit_reg=True, ax=ax1)
v_8_scatter_plot = pd.concat([Y_train,dataTrain['v_8']],axis = 1)
sns.regplot(x='v_8',y = 'price',data = v_8_scatter_plot,scatter= True, fit_reg=True, ax=ax2)
v_0_scatter_plot = pd.concat([Y_train,dataTrain['v_0']],axis = 1)
sns.regplot(x='v_0',y = 'price',data = v_0_scatter_plot,scatter= True, fit_reg=True, ax=ax3)
power_scatter_plot = pd.concat([Y_train,dataTrain['power']],axis = 1)
sns.regplot(x='power',y = 'price',data = power_scatter_plot,scatter= True, fit_reg=True, ax=ax4)
v_5_scatter_plot = pd.concat([Y_train,dataTrain['v_5']],axis = 1)
sns.regplot(x='v_5',y = 'price',data = v_5_scatter_plot,scatter= True, fit_reg=True, ax=ax5)
v_2_scatter_plot = pd.concat([Y_train,dataTrain['v_2']],axis = 1)
sns.regplot(x='v_2',y = 'price',data = v_2_scatter_plot,scatter= True, fit_reg=True, ax=ax6)
v_6_scatter_plot = pd.concat([Y_train,dataTrain['v_6']],axis = 1)
sns.regplot(x='v_6',y = 'price',data = v_6_scatter_plot,scatter= True, fit_reg=True, ax=ax7)
v_1_scatter_plot = pd.concat([Y_train,dataTrain['v_1']],axis = 1)
sns.regplot(x='v_1',y = 'price',data = v_1_scatter_plot,scatter= True, fit_reg=True, ax=ax8)
v_14_scatter_plot = pd.concat([Y_train,dataTrain['v_14']],axis = 1)
sns.regplot(x='v_14',y = 'price',data = v_14_scatter_plot,scatter= True, fit_reg=True, ax=ax9)
v_13_scatter_plot = pd.concat([Y_train,dataTrain['v_13']],axis = 1)
sns.regplot(x='v_13',y = 'price',data = v_13_scatter_plot,scatter= True, fit_reg=True, ax=ax10)

类别特征分析

for catFea in categoricalFeatures:
    print(catFea+"的特征如下：")
    print("{}的特征有{}个不同的值".format(catFea,dataTest[catFea].nunique()))
#     print(dataTrain[catFea].value_counts())

#查看特征的kurt和skew
for col in numericFeatures:
    print('{:15}'.format(col),
          'Skewness:{:05.2f}'.format(dataTrain[col].skew()),
          'Kurtosis:{:06.3f}'.format(dataTrain[col].kurt())
         )
         
#类别特征的nunique个数
for each in categoricalFeatures:
    print(each,dataTrain[each].nunique())

#类别特征箱形图可视化(去掉两个稀疏特征)
tmpCatFea=['model','brand','bodyType','fuelType','gearbox','notRepairedDamage']
for each in tmpCatFea:
    dataTrain[each]=dataTrain[each].astype('category')
    if dataTrain[each].isnull().any():
        dataTrain[each]=dataTrain[each].cat.add_categories(['MISSING'])
        dataTrain[each]=dataTrain[each].fillna('MISSING')
        
def boxplot(x,y,**kwargs):
    sns.boxplot(x=x,y=y)
    x=plt.xticks(rotation=90)
    
f=pd.melt(dataTrain,id_vars=['price'],value_vars=tmpCatFea)
g=sns.FacetGrid(f,col="variable",col_wrap=2,sharex=False,sharey=False,size=5)
g=g.map(boxplot,"value","price")

#类别特征的小提琴图可视化
tmpCatFea2=tmpCatFea
target='price'
for each in tmpCatFea2:
    sns.violinplot(x=each,y=target,data=dataTrain)
    plt.show()

#类别特征的柱状图可视化
def bar_plot(x,y,**kwargs):
    sns.barplot(x=x,y=y)
    x=plt.xticks(rotation=90)
    
f=pd.melt(dataTrain,id_vars=['price'],value_vars=tmpCatFea2)
g=sns.FacetGrid(f,col='variable',col_wrap=2,sharex=False,sharey=False,size=5)
g=g.map(bar_plot,"value","price")

#类别特征的每个类别频数可视化
def count_plot(x, **kwargs):
    sns.countplot(x=x)
    x=plt.xticks(rotation=90)
    
f = pd.melt(dataTrain, value_vars=tmpCatFea2)
g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(count_plot, "value")

用pandas_profiling生成数据报告

# #用pandas_profiling生成一个较为全面的可视化和数据报告(较为简单、方便) 最终打开html文件即可
# import pandas_profiling

# pfr=pandas_profiling.ProfileReport(dataTrain)
# pfr.to_file("./example.html")

经验总结

1、针对一个比赛，了解背景，并从中获取信息，以备特征选择、数据筛选所用；
2、使用常用的baseline，在此基础上，根据最终结果进行调整内容（调参，换模型、特征工程等）
3、EDA（探索数据分析）作为最重要的一步，需要使用各种可视化方法，分析数据之间的关联，以及自身的特性，为后续选择算法做铺垫。

JerryZengZ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DataWhale数据挖掘（二手车价格预测）第二次打卡

数据分析前言：EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。载入各种数据科学以及可视化库（都是使用常用的库）载入数据#se...
复制链接

扫一扫

专栏目录