数据探索简介——质量分析、特征分析

此处参考《python数据分析和挖掘实战》这本书

数据质量分析:

主要是对异常值的分析:

1、3σ原则:如果数据符合正态分布,那么数据异常定义在一组测定值与平均值的偏差超过3倍标准差的值。在正态分布的假设下,距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003,属于极个别的小概率事件。但面对不服从正态分布的数据,应该怎么办呢?

2、箱型图法:该方法具有很大的鲁棒性:多达25%的数据可以离得非常远而不影响四分位数。异常值被定义为>Q_u+1.5IQR或者<Q_L-1.5IQR。首先将数据从小到大排序,设置位于25%的值Q_L为下四分位数(1/4分位数),设置位于75%的值Q_u为上四分位数(3/4分位数),其中IQR称为四分位间距数,等于Q_u-Q_L,包括了观察值的一半。

在python中,data.describe()方法可获得箱型图法的大部分数据。直接给出样本数据的一些基本统计量,包括均值、标准差、最大值、最小值、分位数等,如下输出。


其他数据质量分析还包括对缺失值分析、一致性分析。


数据特征分析:

分布分析:极差分组、频率分布直方图(饼状图)

统计量分析:平均水平的指标(个体集中趋势):均值、中位数;变异程度(个体离开平均水平度量):标准差(方差)、四分位间距

周期性分析:周期性规律

贡献度分析:二八原则—20%的人决定80%的价值

相关性分析:散点图、计算相关系数



偷点懒直接截图了。

相对于统计函数则简单得多,pandas内部含有计算数据样本的Spearman(pearson)相关系数矩阵的函数corr(),D.corr(method=’pearson’),其中样本D可为DataFrame,返回相关系数矩阵,method参数为计算方法,支持pearson(default)、kendall、spearman。

还包括D.sum()按列求和、D.std()、D.mean()、D.var()方差、D.cov()其中D均可为DataFrame或Series

 

可视化函数:

主要是matplotlib和pandas函数。

函数plot:需要注意plt.plot(x,y,S)这是matplotlib里面的,D.plot(kind=’box’)这是pandas里面的,kind还可以为line(线)、bar(条形)、barh、hist(直方图)、box(箱线图)、kde(密度图)、area、pie(饼图)。

函数pie:plt.pie(size) 其中size为所占比例

函数hist:plt.hist(x,y) x为待绘制直方图的一维数组,y可以为整数表示均匀分为n组

其他对于pandas调用均采用D.xxx(),D可为DataFrame或者Series。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值