python机械数据分析_机器学习之数据探索——数据特征分析(分布分析)

数据特征分析与数据质量分析一道构成数据探索的两方面工作,在前文中介绍过关于数据质量分析的概况,本文将对数据特征分析作简介,并着重于分布分析的角度,相比于数据质量分析,数据特征分析更注重于找寻数据间的关系。

数据特征分析包括以下几个分析角度:

1、分布分析

2、对比分析

3、统计量分析

4、帕累托分析

5、正态性检验

6、相关性分析

其上每一个分析角度都有丰富的内容。

分布分析

顾名思义,分布分析研究数据的分布特征和分布类型。对于定量数据,需要了解分布形式,发现某些特大特小的异常值,通常用到散点图,频率分布直方图,茎叶图等;对于定性数据,可用饼图或和条形图显示分布情况。

1 定量数据

对于定量数据列,可以从以下步骤获取其分布形式

1 求极差

2 求适当的分组区间

3 计算各组频率

4 绘制频率分布直方图

当然对于python而言,可以使用内置方法直接将输入的数据转换为直方图:

将数据转为dataframe形式,对其中某一列使用hist()方法,该函数的参数为需要的分组数,可以手动调至合适的分组数。

2 定性数据

对于定性数据,一般可以使用饼图展示其分布状况:

注意:输入上图中函数的数据是统计频数后整理好的,如例中一样,将三个类别的数量统计之后的结果列表作为输入数据。

3 counter函数

上面提到绘制饼图的数据是需要频数统计处理的,那么就需要了解python库函数counter,可以用它方便地进行频数统计:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值