数据分析之excel分析招聘网站数据(基础版)


一、数据分析全流程

• 明确问题
• 理解数据
• 数据清洗
• 数据分析/构建模型
• 数据可视化

以“招聘网站数据-原始数据”为例,进行上述步骤。
`

二、明确问题

• Where——需求在哪里?
• What——需要什么样的人才?
• When——什么阶段需求最旺?

三、理解数据

该数据集共有6875条记录,每条记录有14个属性。

• 城市
• 公司全名
• 公司ID(唯一标识该公司)
• 公司简称
• 公司大小
• 公司所在商区
• 职位所属(公司哪个部门)
• 教育要求
• 公司所属领域
• 职位ID(唯一标识该职位)
• 职位福利
• 职位名称
• 薪水
• 工作年限要求

四、数据清洗

1. 选择子集

利用“隐藏”功能,从原始数据中选择部分数据(即子集)作为分析对象。

2. 列名重命名

双击单元格,修改列名。

3. 删除重复值

选择能够唯一标识该行记录的属性列进行操作。(根据职位ID)

在这里插入图片描述

4. 缺失值处理

第一步:确定缺失值数量

在已知某列数据完整无缺失的情况下,选中该列查看“计数”(表示该列有多少行数据),再查看其他列的“计数”进行对比。即,【其他列的缺失数量 = 该列的“计数” - 其他列的“计数”】

第二步:定位缺失值

在这里插入图片描述在这里插入图片描述

第三步:处理缺失值

• 手动补全缺失值
• 删除缺失值所在行
• 用平均值代替缺失值
• 用统计模型计算所得值代替缺失值
在这里插入图片描述

5. 一致化处理

“一致化”是指数据是否有统一的标准或者命名

A. 分列

在这里插入图片描述

B. EXCEL常用函数

• FIND(要查找的字符串,字符串所在单元格)
• LEFT(字符串所在单元格,从左开始到X位置进行截取)
• RIGHT(字符串所在单元格,从右开始到X位置进行截取)
• MID(字符串所在单元格,开始位置,截取长度)
在这里插入图片描述
在这里插入图片描述

C. 筛选出不正常的数值(#VALUE!)

在这里插入图片描述

    最低薪水存在“#VALUE!”:查找和替换,把“K”替换为“k”

在这里插入图片描述

    最高薪水存在“#VALUE!”:错误值处理,使“最高薪水”等于“最低薪水"

在这里插入图片描述

D. 转换数据类型(字符串->数字):利用“分列”功能

在这里插入图片描述

6. 数据排序

在这里插入图片描述

7. 异常值处理

A. 数据透视表的原理

  • 数据分组(split)
  • 应用函数(apply)
  • 组合结果(combine)

B. 利用函数判断异常值

  • COUNT(value1, value2,…):对给定数据集合或者单元格区域中数据的个数进行计数,错误值、空值、逻辑值、文字则被忽略。例如,COUNT(#VALUE!) = 0
  • IF(logical_test,value_if_true,value_if_false):例如,IF(测试条件,结果1,结果2),即如果满足“测试条件”则显示“结果1”,如果不满足“测试条件”则显示“结果2”
    在这里插入图片描述

五、数据分析/构建模型/数据可视化

      解决某一类问题的办法,都可以叫模型。

1. 需求在哪里?

  • 不同城市的岗位需求和薪资水平

在这里插入图片描述

 结论:
    - 全国数据分析师的人才需求量将近一半集中在北京 
    - 北上深杭广提供91.32%的工作机会
    - 北京的薪资是最高的,其次是深圳、上海和杭州

2. 需要什么样的人才?

  • 对工作年限的需求

在这里插入图片描述

结论:
   - 81.74%职位要求1-5年经验 
   - 数据分析师薪资随工作经验增加显著,3-5年比1年以下翻倍
   - 招聘数据分析师非常看重工作经验
  • 对职位类别的需求

在这里插入图片描述

结论:
   - 技术类招聘比占一半,开发、技术薪资最高
  • 不同学历需求占比和薪资水平

在这里插入图片描述

 结论:
    - 76%的数据分析职位要求本科学历
    - 数据分析师薪资随学历增加不显著,本科与硕士薪资水平无显著差异

3. 什么阶段需求最旺盛?

  • 公司规模占比和薪资水平

在这里插入图片描述

 结论:
    - 150人以上公司对数据分析师招聘需求占71.73% 
    - 随着公司发展,数据分析师重要性愈加凸

4. 数据可视化要点

(1)数据可视化探索步骤

     - 你所拥有的数据 
     - 你想从数据中获取什么信息 
     - 你该使用什么样的可视化方法 
     - 你看到的可视化结果是否有意义 

(2)不同类型的图表

  • 6个图表元素:图表标题、纵横轴标题、类别名称、图例、网格线、数据来源
  • 4种常用图表:散点图、折线图、柱状图、条形图
  • 其它图表:饼图、箱线图、热力图、雷达图、词云图、AARRR漏斗图

(3)如何选择图表?

     - 表格:展示排名前n的数据 
     - 散点图:展示两个变量的相关关系 
     - 折线图:展示数据随时间的变化趋势 
     - 柱形图或条形图:展示不同类别数据的对比
     - 尽量避免使用令用户从视觉上难以理解的饼图、3D图表

(4)图表设计原则

    - 去掉增加认知负荷的网格线、数据标记
    - 避免使用倾斜的文字
    - 去掉小数点后无意义的位数    
    - 删去不必要的图例,直接在图中标记
    - 巧用颜色,如使得图和标记的颜色一致
    - 避免使用居中对齐的文字,建议左对齐

六、拓展:Excel常用技巧

1. 电商行业业务知识

在这里插入图片描述

2. 多表关联查询(VLOOKUP函数)

(1)vlookup函数结构

结构:Vlookup(查找值,数据表,列序数,[匹配条件]);(一定需要注意的是:函数中的参数和参数之间的逗号一定是英文下的逗号。)

(2)参数说明:

(1)查找值:必填项,根据什么查找,查找值必须位于数据表的第一列;

(2)数据表:必填项,查找的区域,若查到多个值,只返回查找到的第一个所对应的数据;

(3)列序数:必填项,返回数据表中第几列的数据(查找结果所对应的);

(4)匹配条件:可选,如果为0(TRUE)表示精确查找;1(False)或省略表示模糊查找

(3)案例参考:

vlookup函数链接描述


文章参考链接

知乎链接描述
csdn链接描述

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值