关于二手车交易预测的数据探索性分析

关于二手车交易预测的数据探索性分析

我们为什么要进行数据分析呢?这是我摘自一个博客的一个答案,希望能给您帮助:探索性数据分析(Exploratory Data Analysis,简称EDA),摘抄网上的一个中文解释,是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是党我们对面对大数据时代到来的时候,各种杂乱的“脏数据”,往往不知所措,不知道从哪里开始了解目前拿到手上的数据时候,探索性数据分析就非常有效。
再看到这个题目的时候,我个人认为数据探索性分析,简称EDA。应该包括了以下几个方面:

一、数据识别

你需要查看数据的类型以及变量类型。看一看哪些是输入变量,那些是输出变量。另外,还需要查看数据的类型,包括字符型数据数值型数据等等,这是最常见的两大类数据。除此之外,你还可以顺便查看一下数据是连续型变量(e.g.预测具体收入)还是类别型变量(收入<5k,收入>5k)。如果是连续性的变量,那么问题就是一个回归问题,如果是类别型变量,那么问题就是一个分类问题,大致可以看出问题的类型。

二、变量分析

1.单变量分析:

对于连续型变量,需要统计数据的中心分布趋势和变量的分布。
我们可以这样进行分析:

Central TendencyMeasure of DispersionVisualization Methods
MeanRangeHistogram
MedianQuartileBox Plot
ModeIQR
MinVariance
MaxStandard Deviation
Slewness and Kurtosis

对于类别型变量,一般使用频次或占比表示每一个类别的分布情况,可以用柱形图来表示可视化分布情况。
但本体实际上是由多个因素的,并不是只有一个因素在影响单变量的,因此本题目实际上是多变量的分析。而且是属于连续型变量之间的多变量组合分析,我们可以绘制散点图,计算相关性系数。散点图可以反应变量的关系是线性的还是非线性的,相关性可以对变量的关系进行量化分析。
相关性系数的计算公式如下:
C o r r e l a t i o n = C o v a r i a n c e ( X , Y ) V a r ( X ) ∗ V a r ( Y ) Correlation=\frac{Covariance(X,Y)}{\sqrt{Var(X)*Var(Y)}} Correlation=Var(X)Var(Y) Covariance(X,Y)
相关性系数越接近一,表明越是正相关,越接近负一,表明越接近负相关。越接近零,则说明不相关。

2.缺失值和异常值处理分析

数据都是非常的脏乱的,我们需要对数据进行处理,在接下来的一步,才能对特征进行进一步的挖掘

1.缺失值:

主要原因是机械原因(数据存储的失败,存储器失败,机械故障失败…)和人为原因(人的主观失误、历史局限、有意隐瞒造成的数据缺失)。
对于缺失,有以下的处理方法:
1.删除。
2.平均数、众数、中值填充
3.预测模型填充

2.异常值

可能是由于数据输入误差、测量误差、实验误差等造成的
一般可以通过箱线图检测,使用删除、转换、填充、区别对待等方法处理。
[1] https://www.jianshu.com/p/9325c9f88ee6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

homer_of

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值