【长期更新】咨询分析中的n个真实数据处理场景

Alexandra0119

已于 2022-07-16 16:14:41 修改

阅读量691

点赞数

分类专栏：原创教程业务总结文章标签：数据分析数据挖掘

于 2021-12-28 11:07:04 首次发布

本文链接：https://blog.csdn.net/weixin_39676904/article/details/122185197

版权

业务总结同时被 2 个专栏收录

9 篇文章 2 订阅

订阅专栏

原创教程

5 篇文章 0 订阅

订阅专栏

本文介绍了Python在咨询分析中的高效应用，对比了Excel和Python在数据处理上的优劣。通过实例展示了Python如何用于分组计算、批量读取文件和统计分析。场景包括：使用Python简化河南省历年县市级人均GDP统计，批量读取文件夹内文件，以及统计和绘制分布箱型图。强调了Python在复杂数据处理和提高工作效率方面的作用。

摘要由CSDN通过智能技术生成

在咨询分析中，数据分析是重要的工具。

但咨询中数据分析的特点是数据获取较为复杂，反而，数据处理较为简单和机械。

人们有时会倾向于在excel里完成任务，但是这可能会导致效率低下；反之，过分信赖python也并非是效率利器，因为有些基础的分析完全可以在excel中完成并保存。

本文是对打工中基础数据处理和分析的记录和总结，不涉及爬虫、机器学习等内容。

场景1：分组完成流程性计算（根据末尾字符分类+遍历筛选+汇总）

场景描述：需要对河南省2000-2019年县、县级市和市辖区的人均GDP做统计和比较。

如果用excel处理，则需要分类分年份筛选（共需要筛选3*19）次，分别用subtotal函数求出平均值，然后绘图。整个处理过程过于繁琐，所以用python来批量实现筛选和统计功能，然后在excel中保存和绘图。

根据末尾字符分类使用的是首尾字符匹配方法，格式为str.endswith()

import pandas as pd

df = pd.read_excel('H:/学位论文相关/数据/县域经济数据-国泰安/各县域地区生产总值及指数102304656/CNT_RegGDPIdx.xlsx', sheet_name = 'Sheet2')
df = df.dropna(how='all')  # 删除空行

# 筛选出县、县级市、市辖区
xian = df[df['县域名称'].str.endswith('县')]
shi = df[df['县域名称'].str.endswith('市')]
qu = df[df['县域名称'].str.endswith('区')]

实现遍历筛选则需要使用分组（group）方法，用法如下：

grouped = xian.groupby('统计年度')
for year, group in grouped:
    print(year,":", group['人均生产总值'].mean())

将打印出的结果复制到excel，绘图即可

场景2：批量读取文件夹内的文件

有时候需要对一个文件夹内的文件做同样的操作，比如打开所有需要合并的excel表格，或者对下图中的图片提取绿视率：

用os就可以实现提取每个文件的路径并遍历啦

#读取该路径文件内全部文件名称
path = '/content/drive/MyDrive/images'
files = os.listdir(path)
for info in files:
  position = os.path.join(path,info)
  img = image.imread(position)

场景3：统计各个值出现的次数

例：统计河南省不同人口增长类型的县的个数

场景4：绘制表示分布的箱型图

例：各省县城的常住人口分布

Alexandra0119

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
【长期更新】咨询分析中的n个真实数据处理场景

在咨询分析中，数据分析是重要的工具。但咨询中数据分析的特点是数据获取较为复杂，反而，数据处理较为简单和机械。人们有时会倾向于在excel里完成任务，但是这可能会导致效率低下；反之，过分信赖python也并非是效率利器，因为有些基础的分析完全可以在excel中完成并保存。本文是对打工中基础数据处理和分析的记录和总结，不涉及爬虫、机器学习等内容。场景1：根据末尾字符分类+遍历筛选+汇总场景描述：需要对河南省2000-2019年县、县级市和市辖区的人均GDP做统计和比较。如果用exc.
复制链接

扫一扫

专栏目录