一件利器:发现“数据亮点”不费力

数据分析最头疼的不是缺少分析思路,而是面对多维度大量数据,总需要做很多重复的工作,往往最后自己的辛苦工作却没有产出任务实际意义的价值。

实践出真知,面对如下的数据:年龄、性别、学历等级、工作年限、工资**。如何快速挖掘出有用的价值,避免局限在自己的技能树之下,费千般力不得一分好:**
在这里插入图片描述

用EXCEL开始手动处理,对列与列之间做重复的相关性校验,N列的数字我们需要做 次操作;探查每一列值域的分布,可能需要做N次这样的操作;偶然我们还会因为NULL值而掉进坑里;最头疼的是摸着石头过河,无法找到数据探查的信息点和价值取向。

1,数据纵览:
接到一个很大的数据文件,你会很快的知道:有多少列、有多少行;但是你知道在这上万的数据中有多少行有数据缺失?又有多少行是重复的数据?一个优秀的数据分析从业人员要对数据做到心中要数。

我可以很快的告诉你-上图的数据纵览:

  1. 列有5个:2个是数值型、3个是分类型
  2. 数据总记录有40条
  3. 没有缺失的单元格,缺失的单元格占比是0.0%
  4. 没有缺失的行数据,缺失的行数据占比是0.0%
  5. 数据文件大小1.7KB

2,列值的描述统计:
直奔主题,以age(年龄)列为例子,我可以很快的绘制直方图,方便我们看出数据的分布:
在这里插入图片描述

我也可以很快的绘制出年龄值的占比,帮我们清晰的看出数据的构成:
在这里插入图片描述

当然,关于数据的最大值、最小值、平均值、极差、方差、标准、偏度、总计等数据的统计描述一样可以快速尽收眼底:
在这里插入图片描述

3,相关性分析:
相关性分析是数据挖掘经常要做的工作,找到强相关的属性,就可以种瓜得瓜。学点统计学的同学都知道,发现相关性的最直接的就是用EXCEL画个散点图,没问题;问题是我们两两组合的列重复画图,不累吗?
在这里插入图片描述

我可以快速绘制多变量的相关系数矩阵图,还支持各种相关性计算算法,不是更完美高效吗?下图,采用Phik (φk)相关性算法绘制,是不是一样就看出:学位和工资要强相关性了,是不是觉得读书还是有用的!
在这里插入图片描述

是不是很赞,你觉得我费了九牛二虎之力,我却不费吹花之力。只需要写一行小小的代码:

# 提示:需要按照Python环境及pandas_profiling包
import os
import xlwt
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport as pr
# 打开表格所在文件夹
os.chdir(r'文件路径')
# 导入表格数据
raw_set = pd.read_excel('月工资.xlx')
# 概览报告
data_report = pr(raw_set)
# 在浏览器里看
data_report.to_file('data_report.html')

所以这里推荐利器Python包pandas_profiling
点赞收藏~快去试试吧! 首发-公众号:数据指象

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

指象

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值