excel数据分析案例

背景:现用Python爬取了某求职网站上关于数据分析的数据,我希望知道数据分析是个怎样的职位?它的工资和薪酬是多少?它有哪些特点,需要掌握哪些能力?哪些公司会招聘这样一个岗位?

1、数据有无缺失值?
数据的缺失值很大程度上影响分析结果。引起缺失的原因很多,例如技术原因,爬虫没有完全抓去,例如本身的缺失,该岗位的HR没有填写。

如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。

2、数据是否一致化?
一致化指的是数据是否有统一的标准或命名。

3、数据是否有脏数据
脏数据是分析过程中很讨厌的环节。例如乱码,错位,重复值,未匹配数据,加密数据等。能影响到分析的都算脏数据,没有一致化也可以算。

使用Excel的删除重复项功能,快速定位是否有重复数据。

4、数据标准结构
数据标准结构,就是将特殊结构的数据进行转换和规整。

表格中,companyLableList就是以数组形式保存(JSON中的数组),我们后续得将这类格式拆分开来
这里写图片描述

薪水用了几K表示,这是文本,并不能直接用于计算。而且是一个范围,后续得按照最高薪水和最低薪水拆成两列。
这里写图片描述

数据清洗

1、将salary拆成最高薪水和最低薪水有二种办法。

一是直接分列,以”-“为拆分符,得到两列数据,然后利用替换功能删除 k这个字符串,得到结果。

二是利用文本查找的思想,重点讲一下这个。先用 =FIND(“k”,O2,1)。查找第一个K(最低薪酬)出现的位置。

这里FIND函数对大小写敏感,数据中的k是小写。

两列分别命名为bottomSalary和topSalary,下面找出bottomSalary:
这里写图片描述

输入=LEFT(O2,FIND(“k”,O2,1))得到的结果就是 7K,要去除掉k,FIND(“k”,O2,1)再减去1即可。

最高薪水也是同样的思路,但不能使用第一个K的位置,因为第二个薪水位置不固定。需要利用find查找”-“位置,然后截取 从”-” 到最后第二个位置的字符串。

=MID(O2,FIND(“-“,O2,1)+1,LEN(O2)-FIND(“-“,O2,1)-1)
这里写图片描述

上面的公式输入成功后,要想对每一行都套用,可以利用单元格的右下角,向下拖拽即可。

因为薪水是一个范围,我们不可能拿范围计算平均工资。那怎么办呢?我们只能取最高薪水和最低薪水的平均数作为该岗位薪资。这是数据来源的缺陷,因为我们并不能知道应聘者实际能拿多少。这是薪水计算的误差。
这里写图片描述

因为R2,S2为文本,所以要写成R2*1,把它转换成数值。

文本格式里输入数字,显示仍然会是数字,只是对齐方式不一样:

文本格式靠左对齐,数字格式靠右对齐.

还有就是用函数计算的时候不同:文本格式不参与函数里数值的计算,

另一个误差就是 工资范围写成6k以上,我们取最高薪水和最低薪水相等。

2、companyLabelList 分列
companyLabelList是公司标签,诸如技能培训啊、五险一金啊等等。直接用分列即可。大家需要注意,分列会覆盖掉右列单元格,所以记得复制到最后一列再分。
这里写图片描述

3、清洗positionLables职位标签。某一个职位最多的标签有13个。

[‘实习生’, ‘主管’, ‘经理’, ‘顾问’, ‘销售’, ‘客户代表’, ‘分析师’, ‘职业培训’, ‘教育’, ‘培训’, ‘金融’, ‘证券’, ‘讲师’]

4、针对positionName用数据透视表,统计各名称出现的次数。
这里写图片描述

=COUNTIF(B4:B2166,”<3”)
出现次数为3次以下的职位,有约一千,都是各类特别称谓。

那就用关键词查找的思路,找出包含有数据分析、分析师、数据运营等关键词的岗位。

用find和数组函数结合,shift+ctrl+enter输入。就得到了多条件查找后的结果。

=IF(COUNT(FIND({“数据分析”,”数据运营”,”分析师”},N3)),”1”,”0”)

单纯的find 只会查找数据分析这个词,必须嵌套count才会变成真数组。
这里写图片描述

将ISDA值为1 的数据过滤出来,即为我们要分析的数据。

分析过程

因为主要数据均是文本格式,所以偏向汇总统计的计算。如果数值型的数据比较多,就会涉及到统计、比例等概念。如果有时间类数据,那么还会有趋势、变化的概念。
1、城市分布

这里写图片描述
看来北京的数据分析岗位机会远较其他城市多。1-3年和3-5年两个时间段的缺口更大。应届毕业生似乎比1年一下经验的更吃香。爬取时间为11月,这时候校招陆续开始,大公司会
有线下校招,实际岗位应该更多。小公司则倾向发布。这是招聘网站的限制。

2、公司规模

这里写图片描述
公司越大,对数据分析的需求越多。但这样分析并不准确,应该用比例,计算不同类型的企业人均招聘数。还有一种情况是,企业刚好招满数据分析师,就不发布岗位了,数据包含的只是正在招聘数据分析师的企业,这些都是限制分析的因素。

3、看一下各城市招聘Top5公司。

这里写图片描述
(先筛选出各城市,然后分别做数据透视表。)

北京的美团以78个数据分析职位招聘力压群雄,甚至一定程度上拉高了北京的数据。
比较奇怪的是阿里巴巴并没有在杭州上榜,看来是该阶段招聘需求不大,或者数据分析师有其他招聘渠道。

4、我们看一下数据分析师的薪水

筛选出ISDA=1的数据,复制到另一张表中,再用数据透视表。
这里写图片描述

南京、西安在应届生中的平均薪资最高,是因为招聘职位不多,单独一两个企业的高薪影响了平均数,其余互联网二线城市同理。当工作年限达到3年以上,北上深杭的数据分析师薪资则明显高于其他城市。

数据会有误差性么?会的,因为存在薪资极值影响。而数据透视表没有中位数选项。我们也可以单独用分位数进行计算,降低误差。
这里写图片描述

分析师、数据、数据分析是最多的标签。除此以外,需求分析,BI,数据挖掘也出现在前列。看来不少数据分析师的要求掌握数据挖掘

  • 13
    点赞
  • 86
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
Excel数据分析与图表应用案例精粹_光盘 杨广于 清华大学出版社,2012 目录 第1章 公式与函数基本操作 1   1.1 Excel公式的基本操作 1   1.1.1 公式的输入与编辑 1   1.1.2 公式中的运算符 2   1.1.3 单元格的引用方式 3   1.1.4 名称的定义及应用 5   1.2 Excel函数的基本操作 7   1.2.1 函数的输入技巧 7   1.2.2 函数的种类 9   1.2.3 函数的参数类型 10   1.3 公式与函数应用技巧 11   1.3.1 复制公式 11   1.3.2 把公式转换为值 12   1.3.3 隐藏工作表中的公式 13   1.3.4 公式与函数运算中常见错误解析 15   第2章 数据筛选与排序 17   2.1 数据筛选 17   2.1.1 应用自动筛选 17   2.1.2 应用高级筛选 23   2.1.3 按单元格颜色进行筛选 25   2.2 数据排序 26   2.2.1 简单排序 26   2.2.2 对员工信息表进行笔划排序 27   2.2.3 按行排序 28   2.2.4 多列排序 29   2.2.5 自定义排序次序 30   2.2.6 按单元格颜色进行排序 32   第3章 图表基本操作 34   3.1 常用图表创建 34   3.1.1 创建柱形图 34   3.1.2 创建饼形图 36   3.1.3 创建条形图 38   3.1.4 创建折线图 41   3.2 其他图表的创建 43   3.2.1 创建股价图 43   3.2.2 创建圆环图 44   3.2.3 创建面积图 46   3.2.4 创建散点图 48   3.2.5 创建组合图 49   第4章 图表编辑与美化 53   4.1 编辑图表 53   4.1.1 变更图表类型 53   4.1.2 添加数据系列 54   4.1.3 数据标签代替图例 56   4.1.4 添加垂直线 57   4.1.5 设置对数刻度 58   4.1.6 调整分类轴标签 59   4.1.7 用文本框代替图例 60   4.1.8 在图表中显示数据表 61   4.1.9 设置数据轴的最小值和最大值 62   4.1.10 处理丢失数据 63   4.1.11 添加趋势线 65   4.1.12 更改数据系列的显示方式 67   4.2 美化图表 67   4.2.1 美化图表标题 67   4.2.2 美化数据系列 69   4.2.3 在图表中插入图片 72   第5章 企业日常费用统计与分析 74   5.1 建立日常费用记录表 74   5.2 利用筛选功能分类查看日常费用 76   5.2.1 查看指定部门的日常费用支出情况 76   5.2.2 查看指定类别的日常费用支出情况 77   5.2.3 查看支出金额最小的几项记录 78   5.2.4 查看特定费用类别中大于或等于指定金额的记录 79   5.3 利用汇总功能统计日常费用 79   5.3.1 统计各部门费用支出总额 80   5.3.2 统计各类别费用支出总额 81   5.4 利用数据透视表(图)统计日常费用 82   5.4.1 统计各部门费用支出金额 82   5.4.2 统计各类别费用支出金额 84   5.4.3 统计各部门各类别费用支出金额 85   5.4.4 比较各部门各类别1、2月的费用 87   第6章 企业日常费用预测与分析 89   6.1 使用线性拟合直线法预测 89   6.1.1 使用LINEST函数进行线性拟合 90   6.1.2 直接获取线性拟合方程的斜率和截距 94   6.1.3 使用线性拟合方程预测费用 96   6.1.4 使用TREND函数预测费用 98   6.2 使用指数回归拟合曲线法预测 101   6.2.1 使用LOGEST函数进行指数回归拟合 101   6.2.2 直接获取指数回归拟合方程的系数和常量 105   6.2.3 使用指数回归拟合方程预测费用 106   6.2.4 使用GROWTH函数预测费用 107   6.3 线性与指数预测结果比较分析 109   第7章 广告支出费用预测与分析 115   7.1 广告支出综合分析 115   7.1.1 创建广告支出费用统计表 115   7.1.2 创建各区域广告支出比例图 117   7.1.3 创建各月广告支出比例图 118   7.1.4 各区域费用支出趋势分析 119   7.2 广告支出费用与销售关系分析 120   7.2.1 使用散点图进行分析 120   7.2.2 使用“协方差”分析工具进行分析 123   7.3 2011年度广告支出与销量预测 126   7.3.1 指数预测销量 126   7.3.2 线性预测销量 129   第8章 产品采购数据处理与分析 132   8.1 建立采购数据统计表 132   8.2 利用汇总功能统计各品种采购数量与采购金额总额 136   8.3 利用函数分析采购数据 138   8.3.1 统计各品种采购数据总和及占总和比例 138   8.3.2 分析最低采购价格及对应的供应商 140   8.4 利用图表显示各品种采购金额在总和中所占比例 142   8.5 利用数据透视表分析采购数据 144   8.5.1 分析各品种产品的采购情况 144   8.5.2 分析各供应商的供应数据 146   第9章 产品销售数据处理与分析 147   9.1 建立销售数据统计表 147   9.2 利用分类汇总功能分析销售数据 151   9.2.1 统计各品种产品的销售数量与销售金额 151   9.2.2 统计各客户购买数量与购买金额 152   9.3 利用函数、图表分析销售数据 153   9.3.1 分析各品种产品销售情况 153   9.3.2 分析各销售人员的业绩 156   9.3.3 使用SUMPRODUCT函数精确分析 158   9.3.4 本期客户交易评估 161   9.4 利用数据透视表分析销售数据 164   9.4.1 分析客户采购情况 164   9.4.2 分析应收账款 166   第10章 产品库存数据处理与分析 169   10.1 建立库存数据统计表 169   10.2 利用函数、图表分析出入库数据 172   10.2.1 计算各品种产品的出入库数据 172   10.2.2 通过图表比较各品种产品的入库数据 174   10.3 利用函数实现按日查询出入库数据 175   10.4 利用函数查询各系列产品的出入库数据 181   10.5 出入库累计汇总 184   10.6 利用数据透视表分析出入库数据 187   10.6.1 统计各品种产品的出入库数据 188   10.6.2 统计各日期的出入库数据 190   第11章 企业人事数据管理与分析 191   11.1 员工档案数据管理 191   11.1.1 建立员工档案管理表 191   11.1.2 档案数据的查看与筛选 197   11.1.3 新建工作表用于查询员工档案 199   11.1.4 分析员工的学历层次 201   11.1.5 分析员工的年龄层次 204   11.2 员工考勤数据管理 206   11.2.1 创建员工考勤记录表 206   11.2.2 填制考勤表 209   11.2.3 统计各员工本月的请假天数、迟到次数及应扣款 210   11.2.4 分析各部门的请假情况 214   11.3 员工培训成绩管理 215   11.3.1 统计每位员工的总成绩、平均成绩并进行排名 215   11.3.2 分析各科目成绩 217   第12章 企业工资数据处理与分析 219   12.1 创建工资记录表 219   12.1.1 建立员工基本工资记录表 219   12.1.2 建立员工业绩提成、奖金、罚款记录表 221   12.1.3 建立员工加班工资统计表 223   12.1.4 建立员工考勤扣款统计表 226   12.2 创建工资统计表 226   12.3 创建工资单 231   12.3.1 建立第一位员工的工资单 231   12.3.2 快速生成每位员工的工资单 233   12.4 按部门汇总工资额 234   12.4.1 利用分类汇功能按部门汇总工资额 234   12.4.2 利用SUMIF函数按部门汇总工资额 236   12.5 利用数据透视表分析工资数据 237   12.5.1 按部门查询工资额 237   12.5.2 按部门统计应发工资总额 238   第13章 生产计划统计与分析 241   13.1 制订生产计划 241   13.1.1 各车型生产计划图表分析 241   13.1.2 各部门生产计划图表分析 243   13.2 实际产量完成比例分析 244   13.2.1 创建生产记录表格 244   13.2.2 按产品分析计划完成进度 246   13.2.3 按部门分析计划完成进度 250   13.3 生产计划完成情况预测 255   第14章 新产品价格分析 260   14.1 价格数据定位分析 260   14.1.1 计算价格的置信区间 260   14.1.2 价格排位分析 262   14.1.3 价格数据频率分析 263   14.2 样本描述性分析 267   14.2.1 性别描述性分析 267   14.2.2 年龄和月收入描述性分析 269   14.3 影响价格的因素分析 270   14.3.1 性别与价格相关性分析 270   14.3.2 年龄与价格相关性分析 273   14.3.3 月收入与价格相关性分析 274   14.4 使用直方图定位最适合价格 274   第15章 企业固定资产数据统计与分析 276   15.1 固定资产参数设置 276   15.2 固定资产清单 278   15.2.1 创建固定资产清单 278   15.2.2 计算固定资产折旧 281   15.3 制作固定资产卡片 287   15.4 使用图表法分析固定资产折旧 295   15.4.1 直线折旧法图表分析 295   15.4.2 余额递减折旧法图表分析 299   15.4.3 年限总和折旧法图表分析 300   第16章 产品生产方案规划求解 302   16.1 建立规划求解问题模型 302   16.2 生产成本最小化规划求解 305   16.2.1 成本最小化规划求解 306   16.2.2 成本最小化分析报告 309   16.3 利润最大化规划求解 311   16.3.1 利润最大化规划求解 311   16.3.2 利润最大化分析报告 314   16.4 创建并管理方案 315   16.4.1 将规划求解的结果保存为方案 315   16.4.2 合并方案 318   16.4.3 创建方案摘要和方案透视表 319   第17章 企业筹资与投资决策分析 321   17.1 筹资决策数据处理与分析 321   17.1.1 长期借款筹资决策分析 321   17.1.2 租赁筹资决策分析 330   17.1.3 两种筹资方案的比较分析 332   17.2 投资决策数据处理与分析 336   17.2.1 简单法投资决策数据处理与分析 336   17.2.2 贴现法投资决策数据处理与分析 338   第18章 市场调查数据处理与分析 344   18.1 建立调查问卷和调查结果接收表 344   18.1.1 建立调查问卷 344   18.1.2 建立记录调查结果的工作表 347   18.2 汇总统计调查结果 350   18.2.1 汇总所有调查结果 350   18.2.2 替换编码生成结果数据库 351   18.3 分析样本组成 353   18.3.1 分析性别组成 354   18.3.2 分析年龄组成 356   18.3.3 分析居住城市组成 358   18.4 分析品牌知名度 359   18.4.1 分析品牌知名度 360   18.4.2 分析地域-品牌知名度 361   18.5 分析品质认知度与地域的相关性 363   18.6 分析品牌忠诚度与性别的相关性 365   第19章 汽车保险数据分析 368   19.1 创建承保客户基本资料库 368   19.1.1 创建并输入客户基本信息 368   19.1.2 计算年龄、驾龄和车龄 370   19.1.3 客户年龄透视分析 372   19.2 保费收入统计分析 375   19.2.1 保费收入结构分析 375   19.2.2 各明细险种投保率分析 377   19.3 保费支出统计分析 380   19.3.1 创建赔款支出数据清单 380   19.3.2 赔款结构分析 382   19.3.3 按客户姓名汇总赔款 384   19.3.4 赔款金额与赔款频率分析 386   19.4 客户管理与等级划分 389   19.4.1 按客户计算赔付率 389   19.4.2 根据赔付率设置客户等级 390   19.4.3 客户级别透视分析 392   第20章 商业房地产数据分析 394   20.1 主要经济指标GDP分析 394   20.2 写字楼供应量分析 396   20.2.1 写字楼供应量分析 396   20.2.2 开发面积增长状况分析 399   20.2.3 各年度写字楼分布区域分析 401   20.2.4 分布区域综合分析 404   20.3 写字楼吸纳量分析 405   20.3.1 销售吸纳量分析 405   20.3.2 出租吸纳量分析 409   20.3.3 空置率分析 410   20.3.4 市场饱和度分析 410   20.4 销售价格与出租价格分析 411   20.4.1 按时间序列分析 411   20.4.2 按空间序列分析 413   第21章 股票数据分析 416   21.1 股票指数的中心趋势分析 416   21.1.1 计算股票指数的算术平均值 416   21.1.2 计算股票指数的几何平均值 417   21.1.3 计算调和平均数 418   21.1.4 计算众数 419   21.1.5 计算中位数 419   21.2 股票指数离散趋势分析 420   21.2.1 计算方差 420   21.2.2 计算标准差 421   21.2.3 计算四分位数 422   21.3 创建股价图进行分析 423   21.3.1 绘制K线图 423   21.3.2 使用K线图分析股票走势 426   21.4 两支股票对比分析 431
最近,我参与了一个项目,该项目要求我使用Python进行Excel数据分析。下面,我将与大家分享这个案例。 首先,我打开了一个Excel文件,里面包含了销售数据。我使用pandas库中的read_excel()函数读取了文件,并将数据存储在一个名为"df"的数据框中。然后,我使用head()函数查看了数据的前几行,以确保数据正常加载。 接下来,我使用describe()函数获取了数据的统计概要,包括数据的总数、平均值、标准差和四分位数等。这些统计指标可以帮助我们了解数据的分布情况和异常值。 然后,我使用plot()函数绘制了数据的柱状图,以便更直观地理解销售情况。通过柱状图,我可以看到不同产品的销售量、销售额等信息,并可以比较它们之间的差异。 此外,我还使用groupby()函数对数据进行了分组,以便按照不同的变量进行分析。例如,我将数据按照地区进行了分组,并计算了每个地区的销售总额和平均销售额。这样,我可以找出销售业绩最好的地区,并做出相应的决策。 最后,我使用to_excel()函数将分析结果保存为一个新的Excel文件,并命名为"分析结果.xlsx"。这样,我们就可以将分析结果与他人共享。 总的来说,使用Python进行Excel数据分析是非常方便和高效的。通过pandas库和其提供的丰富函数,我们可以轻松地读取和处理Excel数据,并进行各种分析。希望我的回答对您有所帮助!
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值