今天是Datawhale 零基础入门数据挖掘 打卡第一天!!!

EDA探索性分析

EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。

简单的导数据,看数据

我们先导入数据并对数据进行一个初略的观察:
在这里插入图片描述
好像也没什么,看不出来什么名堂!
在这里插入图片描述
也差不多,唯一一个有点东西的好像就是箭头所指向的那个了,毕竟能处理的只有int64,float类型,一个object怎么着也得想法处理掉!然后就发现它是‘-’占了24324个,害,删了完事了。

看看预测值咋样

画个箱线图,看看预测值异常值状况!

发现异常值还真挺多,不太好处理啊,先放着,后面想想咋搞。下面看看预测值的分布情况!发现事情不太简单,不是一个正常的正态分布,用log正态也勉强,先凑合着用用先。

切分数据

首先看看特征,把特征分成三部分,分别是日期特征、类别特征、数值特征。然后看看每一维特征的缺失率、nunique等信息,发现seller、offerType这两个特征可以删掉了,因为几乎所有样本就一个取值,看着也没啥用啊。
在这里插入图片描述

处理一下时间了

将时间处理掉,分成年,月,日,这样便于后面的处理,
在这里插入图片描述

看看相关性

先看看其他因素与价格的关系如何!
在这里插入图片描述
再往上的因素与价格的相关性就越来越少,后面进行分析时可以考虑一下删除或进行其他处理,再画出热力图,发现有些因素是具有自相关性的,那么就不太好了,要妥善使用该因素了。

看看测试集与预测集的因素分布

在这里插入图片描述
嗯,还行。
总的来说,虽然EDA探索性分析挺重要的,但就目前新手阶段,对其不是很了解,只能做个大概,并且由于不知道后续操作该如何,很多情况下,知道了有些东西,也不知道该如何处理或者后续需要什么东西,所以,可能得后面的操作进行后,看看有什么东西需要的,或者前面有什么东西遗漏的,再重新回过头来看看了!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值