关于二手车交易预测的数据探索性分析

最新推荐文章于 2022-09-02 13:26:49 发布

原创最新推荐文章于 2022-09-02 13:26:49 发布 · 513 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #机器学习 #python

数据竞赛专栏收录该内容

7 篇文章

订阅专栏

本文介绍了探索性数据分析（EDA）在二手车交易预测中的重要性，涉及数据识别、变量分析、缺失值和异常值处理。通过分析数据类型、变量分布、相关性以及使用统计图表，可以确定问题类型、识别变量间关系并进行数据清洗，为后续建模做好准备。相关性系数衡量变量间关联性，箱线图则用于检测异常值。处理缺失值和异常值是确保数据质量的关键步骤，常用方法包括删除、填充和预测模型。

关于二手车交易预测的数据探索性分析

我们为什么要进行数据分析呢？这是我摘自一个博客的一个答案，希望能给您帮助：探索性数据分析（Exploratory Data Analysis，简称EDA），摘抄网上的一个中文解释，是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是党我们对面对大数据时代到来的时候，各种杂乱的“脏数据”，往往不知所措，不知道从哪里开始了解目前拿到手上的数据时候，探索性数据分析就非常有效。
再看到这个题目的时候，我个人认为数据探索性分析，简称EDA。应该包括了以下几个方面：

一、数据识别：

你需要查看数据的类型以及变量类型。看一看哪些是输入变量，那些是输出变量。另外，还需要查看数据的类型，包括字符型数据，数值型数据等等，这是最常见的两大类数据。除此之外，你还可以顺便查看一下数据是连续型变量（e.g.预测具体收入）还是类别型变量（收入<5k,收入>5k）。如果是连续性的变量，那么问题就是一个回归问题，如果是类别型变量，那么问题就是一个分类问题，大致可以看出问题的类型。

二、变量分析：

1.单变量分析：

对于连续型变量，需要统计数据的中心分布趋势和变量的分布。
我们可以这样进行分析：

Central Tendency	Measure of Dispersion	Visualization Methods
Mean	Range	Histogram
Median	Quartile	Box Plot
Mode	IQR
Min	Variance
Max	Standard Deviation
	Slewness and Kurtosis

对于类别型变量，一般使用频次或占比表示每一个类别的分布情况，可以用柱形图来表示可视化分布情况。
但本体实际上是由多个因素的，并不是只有一个因素在影响单变量的，因此本题目实际上是多变量的分析。而且是属于连续型变量之间的多变量组合分析，我们可以绘制散点图，计算相关性系数。散点图可以反应变量的关系是线性的还是非线性的，相关性可以对变量的关系进行量化分析。
相关性系数的计算公式如下：
$Correlation=Covariance(X,Y)Var(X)∗Var(Y)Correlation=\frac{Covariance(X,Y)}{\sqrt{Var(X)*Var(Y)}}$
相关性系数越接近一，表明越是正相关，越接近负一，表明越接近负相关。越接近零，则说明不相关。