数据分析最头疼的不是缺少分析思路,而是面对多维度大量数据,总需要做很多重复的工作,往往最后自己的辛苦工作却没有产出任务实际意义的价值。
实践出真知,面对如下的数据:年龄、性别、学历等级、工作年限、工资**。如何快速挖掘出有用的价值,避免局限在自己的技能树之下,费千般力不得一分好:**
用EXCEL开始手动处理,对列与列之间做重复的相关性校验,N列的数字我们需要做 次操作;探查每一列值域的分布,可能需要做N次这样的操作;偶然我们还会因为NULL值而掉进坑里;最头疼的是摸着石头过河,无法找到数据探查的信息点和价值取向。
1,数据纵览:
接到一个很大的数据文件,你会很快的知道:有多少列、有多少行;但是你知道在这上万的数据中有多少行有数据缺失?又有多少行是重复的数据?一个优秀的数据分析从业人员要对数据做到心中要数。
我可以很快的告诉你-上图的数据纵览:
- 列有5个:2个是数值型、3个是分类型
- 数据总记录有40条
- 没有缺失的单元格,缺失的单元格占比是0.0%
- 没有缺失的行数据,缺失的行数据占比是0.0%
- 数据文件大小1.7KB
2,列值的描述统计:
直奔主题,以age(年龄)列为例子,我可以很快的绘制直方图,方便我们看出数据的分布:
我也可以很快的绘制出年龄值的占比,帮我们清晰的看出数据的构成:
当然,关于数据的最大值、最小值、平均值、极差、方差、标准、偏度、总计等数据的统计描述一样可以快速尽收眼底:
3,相关性分析:
相关性分析是数据挖掘经常要做的工作,找到强相关的属性,就可以种瓜得瓜。学点统计学的同学都知道,发现相关性的最直接的就是用EXCEL画个散点图,没问题;问题是我们两两组合的列重复画图,不累吗?
我可以快速绘制多变量的相关系数矩阵图,还支持各种相关性计算算法,不是更完美高效吗?下图,采用Phik (φk)相关性算法绘制,是不是一样就看出:学位和工资要强相关性了,是不是觉得读书还是有用的!
是不是很赞,你觉得我费了九牛二虎之力,我却不费吹花之力。只需要写一行小小的代码:
# 提示:需要按照Python环境及pandas_profiling包
import os
import xlwt
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport as pr
# 打开表格所在文件夹
os.chdir(r'文件路径')
# 导入表格数据
raw_set = pd.read_excel('月工资.xlx')
# 概览报告
data_report = pr(raw_set)
# 在浏览器里看
data_report.to_file('data_report.html')
所以这里推荐利器Python包pandas_profiling
点赞收藏~快去试试吧! 首发-公众号:数据指象