关于二手车交易预测的数据探索性分析
我们为什么要进行数据分析呢?这是我摘自一个博客的一个答案,希望能给您帮助:探索性数据分析(Exploratory Data Analysis,简称EDA),摘抄网上的一个中文解释,是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是党我们对面对大数据时代到来的时候,各种杂乱的“脏数据”,往往不知所措,不知道从哪里开始了解目前拿到手上的数据时候,探索性数据分析就非常有效。
再看到这个题目的时候,我个人认为数据探索性分析,简称EDA。应该包括了以下几个方面:
一、数据识别:
你需要查看数据的类型以及变量类型。看一看哪些是输入变量,那些是输出变量。另外,还需要查看数据的类型,包括字符型数据,数值型数据等等,这是最常见的两大类数据。除此之外,你还可以顺便查看一下数据是连续型变量(e.g.预测具体收入)还是类别型变量(收入<5k,收入>5k)。如果是连续性的变量,那么问题就是一个回归问题,如果是类别型变量,那么问题就是一个分类问题,大致可以看出问题的类型。
二、变量分析:
1.单变量分析:
对于连续型变量,需要统计数据的中心分布趋势和变量的分布。
我们可以这样进行分析:
Central Tendency | Measure of Dispersion | Visualization Methods |
---|---|---|
Mean | Range | Histogram |
Median | Quartile | Box Plot |
Mode | IQR | |
Min | Variance | |
Max | Standard Deviation | |
Slewness and Kurtosis |
对于类别型变量,一般使用频次或占比表示每一个类别的分布情况,可以用柱形图来表示可视化分布情况。
但本体实际上是由多个因素的,并不是只有一个因素在影响单变量的,因此本题目实际上是多变量的分析。而且是属于连续型变量之间的多变量组合分析,我们可以绘制散点图,计算相关性系数。散点图可以反应变量的关系是线性的还是非线性的,相关性可以对变量的关系进行量化分析。
相关性系数的计算公式如下:
C
o
r
r
e
l
a
t
i
o
n
=
C
o
v
a
r
i
a
n
c
e
(
X
,
Y
)
V
a
r
(
X
)
∗
V
a
r
(
Y
)
Correlation=\frac{Covariance(X,Y)}{\sqrt{Var(X)*Var(Y)}}
Correlation=Var(X)∗Var(Y)Covariance(X,Y)
相关性系数越接近一,表明越是正相关,越接近负一,表明越接近负相关。越接近零,则说明不相关。
2.缺失值和异常值处理分析
数据都是非常的脏乱的,我们需要对数据进行处理,在接下来的一步,才能对特征进行进一步的挖掘
1.缺失值:
主要原因是机械原因(数据存储的失败,存储器失败,机械故障失败…)和人为原因(人的主观失误、历史局限、有意隐瞒造成的数据缺失)。
对于缺失,有以下的处理方法:
1.删除。
2.平均数、众数、中值填充
3.预测模型填充
2.异常值
可能是由于数据输入误差、测量误差、实验误差等造成的
一般可以通过箱线图检测,使用删除、转换、填充、区别对待等方法处理。
[1] https://www.jianshu.com/p/9325c9f88ee6