探索型数据分析 EDA 小结

最新推荐文章于 2022-05-27 19:43:49 发布

周小丫0_0

最新推荐文章于 2022-05-27 19:43:49 发布

阅读量220

点赞数

分类专栏：数据分析入门

本文链接：https://blog.csdn.net/qq_33749437/article/details/107773671

版权

数据分析入门专栏收录该内容

19 篇文章 1 订阅

订阅专栏

一般流程

1. 读取数据

2. 了解整体数据情况，包括但不限于：

	1).数据字典，也就是字段，明确分析维度；
	2).数据类型；`object、int64`
	3).有无空值、缺失值数量或者缺失率；`isnull()、info()`
	4).特征中具体有哪些分类；`nunique()、unique()`
	5).描述性统计；`describe()`
	6).数据集是否是平衡数据集；`直方图、饼图`

3. 数据处理

1).空值与缺失值处理

	a). 不做处理
	b). 全部缺失值删除、删除高于阈值的缺失值或者删除与其他特征高度关联的缺失值特征
	c). 插补法：
			均值(众数)插补——缺失值数量小
			考虑与其他特征的关系，根据其他特征插入——缺失值数量不大不小
			补充另一个数——缺失值数量很大

2).异常值处理

	a).删除含有异常值的记录：直接将含有异常值的记录删除；
	b).视为缺失值：将异常值视为缺失值，利用缺失值处理的方法进行处理；
	c).平均值修正：可用前后两个观测值的平均值修正该异常值；
	d).不处理：直接在具有异常值的数据集上进行数据挖掘；

3).时间类型数据处理

	a).数据类型转换

4.数据特征分析

1).单个特征分析

    a). 各个特征与标签之间的关联关系
	b).单个特征具体特征的分类与标签的关系
	c).可视化绘图，包括但不限于：
		直方图
		饼图
		折线图

2).多个特征分析

	a).关联特征分析
	b).热力图

5. 特征选择

主要从相关性、差异性、显著性三个方向进行特征选择；
参考特征选择博客
目前我主要用到的是Filter方法进行特征筛选，后续其他方法有待继续学习。
1).Filter——自变量与因变量之间的关系
连续变量-连续变量相关分析
连续变量-分类变量 T检验/方差分析
分类变量-分类变量卡方检验

	a).相关性——主要看连续变量
	b).卡方检验——分类变量(离散变量像sex)与标签的关系
	c).Anova/t检验——连续变量(像age)与标签的关系
	d).主要用到`sklearn.feature_selection`，`f_classif`方差分析，`SelectKBest `特征选择

周小丫0_0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
探索型数据分析 EDA 小结

一般流程读取数据了解整体数据情况，包括但不限于：1).数据字典，也就是字段，明确分析维度；2). 数据类型；object、int643).有无空值、缺失值数量或者缺失率；isnull()、info()4).特征中具体有哪些分类；nunique()、unique()5).描述性统计；describe()6).数据集是否是平衡数据集；直方图、饼图数据处理1).空值与缺失值处理 a). 不做处理 b). 全部缺失值删除、删除高于阈值的缺失值或者删除与其他特征高度关联的缺失值特征
复制链接

扫一扫

专栏目录