一件利器：发现“数据亮点”不费力

最新推荐文章于 2024-07-19 16:36:18 发布

指象

最新推荐文章于 2024-07-19 16:36:18 发布

阅读量199

点赞数

分类专栏：数据分析文章标签： python 数据分析数据挖掘

本文链接：https://blog.csdn.net/u011479831/article/details/118053759

版权

数据分析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

数据分析最头疼的不是缺少分析思路，而是面对多维度大量数据，总需要做很多重复的工作，往往最后自己的辛苦工作却没有产出任务实际意义的价值。

实践出真知，面对如下的数据：年龄、性别、学历等级、工作年限、工资**。如何快速挖掘出有用的价值，避免局限在自己的技能树之下，费千般力不得一分好：**
在这里插入图片描述

用EXCEL开始手动处理，对列与列之间做重复的相关性校验，N列的数字我们需要做次操作；探查每一列值域的分布，可能需要做N次这样的操作；偶然我们还会因为NULL值而掉进坑里；最头疼的是摸着石头过河，无法找到数据探查的信息点和价值取向。

1，数据纵览：
接到一个很大的数据文件，你会很快的知道：有多少列、有多少行；但是你知道在这上万的数据中有多少行有数据缺失？又有多少行是重复的数据？一个优秀的数据分析从业人员要对数据做到心中要数。

我可以很快的告诉你-上图的数据纵览：

列有5个：2个是数值型、3个是分类型
数据总记录有40条
没有缺失的单元格，缺失的单元格占比是0.0%
没有缺失的行数据，缺失的行数据占比是0.0%
数据文件大小1.7KB

2，列值的描述统计：
直奔主题，以age(年龄)列为例子，我可以很快的绘制直方图，方便我们看出数据的分布：
在这里插入图片描述

我也可以很快的绘制出年龄值的占比，帮我们清晰的看出数据的构成：
在这里插入图片描述

当然，关于数据的最大值、最小值、平均值、极差、方差、标准、偏度、总计等数据的统计描述一样可以快速尽收眼底：
在这里插入图片描述

3，相关性分析：
相关性分析是数据挖掘经常要做的工作，找到强相关的属性，就可以种瓜得瓜。学点统计学的同学都知道，发现相关性的最直接的就是用EXCEL画个散点图，没问题；问题是我们两两组合的列重复画图，不累吗？
在这里插入图片描述

我可以快速绘制多变量的相关系数矩阵图，还支持各种相关性计算算法，不是更完美高效吗？下图，采用Phik (φk)相关性算法绘制，是不是一样就看出：学位和工资要强相关性了，是不是觉得读书还是有用的！
在这里插入图片描述

是不是很赞，你觉得我费了九牛二虎之力，我却不费吹花之力。只需要写一行小小的代码：

# 提示：需要按照Python环境及pandas_profiling包
import os
import xlwt
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport as pr
# 打开表格所在文件夹
os.chdir(r'文件路径')
# 导入表格数据
raw_set = pd.read_excel('月工资.xlx')
# 概览报告
data_report = pr(raw_set)
# 在浏览器里看
data_report.to_file('data_report.html')

所以这里推荐利器Python包pandas_profiling
点赞收藏～快去试试吧！首发-公众号：数据指象

指象

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
一件利器：发现“数据亮点”不费力

数据分析最头疼的不是缺少分析思路，而是面对多维度大量数据，总需要做很多重复的工作，往往最后自己的辛苦工作却没有产出任务实际意义的价值。实践出真知，面对如下的数据：年龄、性别、学历等级、工作年限、工资**。如何快速挖掘出有用的价值，避免局限在自己的技能树之下，费千般力不得一分好：**用EXCEL开始手动处理，对列与列之间做重复的相关性校验，N列的数字我们需要做次操作；探查每一列值域的分布，可能需要做N次这样的操作；偶然我们还会因为NULL值而掉进坑里；最头疼的是摸着石头过河，无法找到数据探查的信息点
复制链接

扫一扫