天池二手车比赛-EDA

这是第二次的任务打卡
首先是基本流程:
在这里插入图片描述
借鉴别人的一个思维导图,基本流程比较清楚了。

1. 与官方手册有修改的的地方

import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as st #引入科学计算包,统计类
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号

在这一部分因为自己绘图的习惯,喜欢一来就负号与中文标签显示进行解决。这两行代码就能实现在所有的图里面进行中文正常显示。

Train_data_1=Train_data.copy()
Train_data_1['price'][Train_data_1['price']>40000]=None
#注意,这是两个[]
Train_data_1.dropna()
plt.figure(2)
plt.hist(Train_data_1['price'],orientation='vertical',histtype='bar',color='red')
Train_data_2=Train_data.copy()
Train_data_2['price'】[Train_data_2['price']>25000]=None
Train_data_2.dropna()
plt.figure(3)plt.hist(Train_data_2['price'],orientation='vertical',histtype='bar',color='blue')

这里因为想在最后结果中,尝试对舍弃不同量的数据对预测结果的影响,所以设立了两个其他变量,一个是去除了40000以上,一个是去除了25000以上

2.这次EDA处理与以往的不同

  • 数据特征比较多
    本次数据特征列有超过15个。这是在以前Kaggle与kesci数据竞赛中没有尝试过的(好像Airbnb那个有?还是纽约事故那个?)
    那么所显出的问题的就是发现自己的describe语句不能显示所有的特征列,无法发现数据分布极端的特征。

  • 学会了多维数据的分布绘图
    这个是之前没想过的。因为之前也没很关注这个点。这也是这次EDA收获最大的地方。

3.对于本次EDA的思考
对于自己而言,之前也跟着其他类似的比赛走过一次。但这次因为要输出文本,所以可能思考的比较多一点。也有助于对学习效率进一步提升。
那么本次的是采用模型进行回归分析。从对自己的数据与论文方向来看,并不是特别契合。自己的主要精力还是要放在对数据处理与转换的过程中。其次,本次数据特征维度比较多,但是数据量显得不够。同时因为时序数据很少,所以在对日期处理与时空转换部分的训练不足。这是接下来自己需要再次提升的方向。可以尝试出租车轨迹数据处理那个比赛。

4.从现有数据分析过程中提取的注意事项

  • 不同特征间的关系
    在这里插入图片描述
    同时对于不同维度的分布情况要学会进一步分析

  • 值得展开学习的部分
    

    faceGrid 多图网络结构化讲解

    第一次写的不好,还需要多多学习!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值