数据探索之数据分析

最新推荐文章于 2024-01-18 23:43:25 发布

可以了、

最新推荐文章于 2024-01-18 23:43:25 发布

阅读量314

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43624747/article/details/107147551

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.1 数据质量分析

数据质量分析的主要任务是检查原始数据中是否存在脏数据，常见的脏数据有：

缺失值
异常值
不一致的值
重复数据以及含有特殊符号的数据

1.1.1 缺失值分析

(1) 缺失值产生的原因

有些信息无法获取，或者获取信息的代价太大
信息遗漏
属性值不存在

(2) 缺失值的影响

数据挖掘建模将会丢失大量的有用信息
数据挖掘建模表现出的不确定性更加显著
包含空值的数据会使建模过程陷入混乱

(3) 缺失值的分析

使用简单的统计分析，可以得到含有缺失值的属性的个数，以及每个属性的未缺失数、缺失数与缺失率等

1.1.2 异常值分析

异常值分析是检验数据是否有录入错误以及含有不合理的数据，异常值的分析也成为离群点分析。

(1) 简单统计量分析

即统计量的范围是否合理

(2) 3σ原则

如果数据服从正态分布，再3σ原则下，异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值，在正态分布的假设下，距离平均值3σ之外的值出现的概率为P<=0.003,属于极个别的小概率事件。

(3) 箱型图提供了识别异常值的一个标准：异常值通常被定义为小于Ql - 1.5 IQR 或大于Qu + 1.5 IQR 的值。其中Ql为下四分位数，Qu为上四分位数，IQR为四分位数间距，其间包含了全部观察值的一半。

1.1.3 一致性分析

数据不一致性是指数据的矛盾性、不相容性。在数据挖掘过程中，不一致数据的产生主要发生在数据集成的过程中，这可能是由于被挖掘数据是来自于从不同的数据源、对于重复存放的数据未能进行一致性更新造成的。(未进行同时更新)

1.2 数据特征分析

1.2.1 分布分析

1.定量数据的分布分析

求极差
决定组距与组数
决定分点
列出频率分布表
绘制频率分布直方图

2.定性数据的分布分析

通过饼图(扇形图)和条形图来描述定性变量的分布。

### 1.2.2 对比分析

### 1.2.3统计量分析

集中趋势：均值或者中位数

离中趋势：标准差(方差)、四分位间距

1.2.4周期性分析

1.2.5贡献度分析

1.2.6 相关性分析

1.直接绘制散点图

2.绘制散点图矩阵

3.计算相关系数(pearson系数、Spearman系数)

1.3 主要数据探索函数

1. python主要用于数据探索的库主要是 pandas 和 Matplotlib

sum
mean
var 计算数据样本的方差
std() 计算数据样本的标准差
corr 计算数据样本的pearson 相关系数 D.corr(method=‘pearson’)
cov 计算数据样本的协方差矩阵
describe 直接给出样本数据的一些基本的统计量，如均值、中位数等

2. pandas 累积统计特征函数

累积计算(cum)
滚动计算(pd.rolling_) (按列计算)

3. 统计作图函数

(1) plot() ：绘制线性二维图、折线图格式为：plt.plot(x,y,S)

(2) pie() : 绘制饼形图格式为： plt.pie(size)

(3) hist() : 绘制直方图格式为： plt.hist(x,y)

(4) boxplot() : 绘制样本数据的箱型图格式为： D.boxplot()

(5) plot(logy = True) 绘制y轴的对数图形格式为：D.plot(logy = True)

(6) plot(yerr = error) 绘制误差条形图格式为：D.plot(yerr = error)

导入pandas相关作图函数库的方法为: import matplotlib.pyplot as plt

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据探索之数据分析

1.1 数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据，常见的脏数据有：缺失值异常值不一致的值重复数据以及含有特殊符号的数据1.1.1 缺失值分析 (1) 缺失值产生的原因有些信息无法获取，或者获取信息的代价太大信息遗漏属性值不存在 (2) 缺失值的影响数据挖掘建模将会丢失大量的有用信息数据挖掘建模表现出的不确定性更加显著包含空值的数据会使建模过程陷入混乱 (3) 缺失值的分析使用简单的统计分
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。