数据挖掘(二)用python实现数据探索:汇总统计和可视化

今天我们来讲一讲有关数据探索的问题。其实这个概念还蛮容易理解的,就是我们刚拿到数据之后对数据进行的一个探索的过程,旨在了解数据的属性与分布,发现数据一些明显的规律,这样的话一方面有助于我们进行数据预处理,另一方面在进行特征工程时可以给我们一些思路。所以这样一个过程在数据挖掘中还是蛮有用的,相信大家在网上看过不少数据挖掘比赛的Kernel,一般一上来都先是个数据探索的过程。之前听过一个老师讲课,说数据探索过程其实可有可无,直接预处理猛搞,但典型的口嫌体正直,在演示一个比赛的流程时,还是先进行了汇总统计及可视化,哈哈哈,其实八数据探索归结到数据预处理中也未尝不可。

那回到正题,数据探索主要包括两个方面

一 汇总统计

二 数据可视化

我们先对汇总统计涉及的概念进行一些梳理,然后讲解如何用Python完成汇总统计以及常见的数据可视化。就我个人经验来说,可视化真的很重要,文章写得好不如图画的漂亮。

====================================================================

什么是汇总统计呢?就是用单个数或者数的小集合去表示一个大的值的集合的特征,其实就是一些描述性的统计量,概念非常容易理解,比较常见的如下

1 频率和众数

频率就是指某个值出现的次数占总体数值个数或者某个属性为某值的对象占总体对象数目的比例。频率最高对应的值或属性就称之为众数。通常我们会对频率值比较极端的情况感兴趣,需要注意的就是对于连续数据通常不存在频率或者众数的概念,不过我们可以通过阈值切分完成离散化再进行相关统计。

2 百分位数

百分位数就是指处于对应百分数处的数据所对应的值。这个数据可以很好地帮我们认识数据的分布,主要集中在哪个区域,是否存在很明显的离群点等等。

3 均值和中位数

这两个概念不用介绍了吧,一个是均值,一个是最中间的一个数的值或两个数的均值。日常生活中,人们总喜欢用均值来表示平均水平,但这其实有个前提,就是数据是对称分布的,而且均值对于离群值很敏感,这就是大家会吐槽国家统计局发布的什么地区平均收入水平的原因,假如马云爸爸身家200亿美金,浙江省人口5000万,那马云爸爸一个人就把均值拉升了400美金,你说这个均值的意义到底在哪里啊……相比之下,中位数是一个更好的衡量指标,相比较均值,更能够体现数据中部处于怎样一个水平。

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值