python数据分析数据探索

本文探讨了数据质量分析中的关键要素,包括缺失值的可能原因及其对数据分析的影响,以及如何通过删除、插补等方法处理缺失值。同时,文章介绍了异常值检测的统计方法,如3sigma原则和箱型图分析,并关注数据一致性在数据集成中的挑战。
摘要由CSDN通过智能技术生成

数据质量分析:

               缺失值、异常值、一致性。

缺失值:

           原因:1.信息暂时无法获取,或获取的代价太大。

                      2.信息遗漏

                      3.属性值不存在

           影响:1.数据挖掘建模将丢失大量有用的信息。

                      2.数据挖掘模型表现出大量的不确定性,模型蕴含的规律难以把握。

                      3.含有空值的数据会是建模过程陷入混乱,导致不可靠的输出。

           分析:统计分析

                      对缺失值的处理:删除、插补和不处理3种

异常值:

          异常值是指样本中的个别值,其数值明显偏离其他观测值。异常值也被称为离群值,异常值分析也称为离群点分析。

分析:

          1.简单统计量分析

          2.3sigma原则

               基于正态分布,3sigma准则认为超过3sigma的数据为异常点。

def three_sigma(s):
    mu, std = np.mean(s), np.std(s)
    lower, upper = mu-3*std, mu+3*std
    return lower, upper

        3.箱型图分析

              箱线图时基于四分位距(IQR)找异常点的。

              

        箱型图提供了一个识别异常值的标准:异常值通常被定义为小Q1-1.5IQR或大于Q3+1.5IQR的值。Q1被称为下四分位数,表示全部观察值中有四分之一的数据取值比他小;Q3称为上四分位数,表示全部观察值中有四分之一的数据取值比他大;IQR称为四分位数间距,是上四分位数Q3与下四分位数Q1之差,期间包含了全部观察之中的一半。

def boxplot(s):
    q1, q3 = s.quantile(.25), s.quantile(.75)
    iqr = q3 - q1
    lower, upper = q1 - 1.5*iqr, q3 + 1.5*iqr
    return lower, upper

一致性:

        数据不一致性是指数据的矛盾性、不相容性。不一致数据的产生主要发生在数据集成的过程中,可能是由于被挖掘数据来自与不同的数据源、对于重复存放的数据未能进行一致性更新造成的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

简单编程王子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值