数据挖掘之数据预分析的简单流程

最新推荐文章于 2024-03-04 13:37:21 发布

小柳哥

最新推荐文章于 2024-03-04 13:37:21 发布

阅读量888

点赞数 2

本文链接：https://blog.csdn.net/qq_44949310/article/details/105047707

版权

本文介绍了数据挖掘中的数据预分析流程，包括载入数据、数据总览、处理缺失异常、理解预测值分布和特征分析。使用pandas、numpy、matplotlib、seaborn等工具，通过观察统计量、数据可视化等方式，为后续建模打下基础。

摘要由CSDN通过智能技术生成

数据预分析的简单流程

1.什么是EDA
2.载入数据
3.总览数据概况
- 3.1简略观察数据
- 3.2简略观察数据统计量
4.数据缺失和异常的处理
5.了解预测值分布
6.观察特征分布
总结

1.什么是EDA

EDA即数据探索性分析，在数据挖掘建立模型解决问题之前对数据集进行探索性分析，熟悉数据集，了解数据集各属性之间的大致关系和基本特征，为之后的建模，调试做准备。

2.载入数据

常用的库有pandas、numpy、matplotlib、seabon。pandas、numpy为数据科学库，matplotlib、seabon为数据可视化库。其中pandas侧重于数据分析，numpy侧重于处理多维数值型数组，重点在于进行数值运算。Seaborn跟matplotlib最大的区别就是它的默认绘图风格和色彩搭配都具有现代美感，其实是在matplotlib的基础上进行了更高级的API封装。

import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
data = pd.read_csv(r'文件路径', sep=' ')#sep代表文件属性间的分割方式