数据挖掘之数据预分析的简单流程

本文介绍了数据挖掘中的数据预分析流程,包括载入数据、数据总览、处理缺失异常、理解预测值分布和特征分析。使用pandas、numpy、matplotlib、seaborn等工具,通过观察统计量、数据可视化等方式,为后续建模打下基础。
摘要由CSDN通过智能技术生成

1.什么是EDA

EDA即数据探索性分析,在数据挖掘建立模型解决问题之前对数据集进行探索性分析,熟悉数据集,了解数据集各属性之间的大致关系和基本特征,为之后的建模,调试做准备。

2.载入数据

常用的库有pandas、numpy、matplotlib、seabon。pandas、numpy为数据科学库,matplotlib、seabon为数据可视化库。其中pandas侧重于数据分析,numpy侧重于处理多维数值型数组,重点在于进行数值运算。Seaborn跟matplotlib最大的区别就是它的默认绘图风格和色彩搭配都具有现代美感,其实是在matplotlib的基础上进行了更高级的API封装。

import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
data = pd.read_csv(r'文件路径', sep=' ')#sep代表文件属性间的分割方式

3.总览数据概况

3.1简略观察数据

观察数据的整体情况,行数,列数,各属性名称及代表的含义。只有了解了数据的总体情况,才能在后面的建模中做到心中有数,减少犯错。

3.2简略观察数据统计量

利用*

data.describe()

*观察每列数据的统计量,例如个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值 看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断,比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式,有的时候需要注意下。

4.数据缺失和异常的处理

在数据集中,难以避免会出现数据缺失或者异常的情况。如果不对这些数据进行处理,数据分析无从谈起。具体操作方法为

data.isnull().sum
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值