什么是探索性数据分析(EDA)?
EDA 是数据分析下的一种现象,用于更好地理解数据方面,例如: – 数据的主要特征 – 变量和它们之间的关系 – 确定哪些变量对我们的问题很重要 我们将研究各种探索性数据分析方法,例如:
- 描述性统计,这是一种简要概述我们正在处理的数据集的方法,包括样本的一些度量和特征
- 分组数据 [使用 group by 进行基本分组]
- ANOVA,方差分析,这是一种计算方法,可将观察集中的变化划分为不同的分量。
- 相关和相关方法
我们将使用的数据集是子投票数据集,您可以在 python 中将其导入为:
import pandas as pd
Df = pd.read_csv("https://vincentarelbundock.github.io / Rdatasets / csv / car / Child.csv")
描述性统计
描述性统计是了解数据特征和快速总结数据的有用方法。python 中的 Pandas 提供了一个有趣的方法 describe() 。describe 函数对数据集应用基本统计计算,如极值、数据点计数标准差等。任何缺失值或 NaN 值都会被自动跳过。describe() 函数很好地描绘了数据的分布情况。
DF.describe()
这是您在运行上述代码时将获得的输出: