文章目录
一、数据分析全流程
• 明确问题
• 理解数据
• 数据清洗
• 数据分析/构建模型
• 数据可视化
以“招聘网站数据-原始数据”为例,进行上述步骤。
`
二、明确问题
• Where——需求在哪里?
• What——需要什么样的人才?
• When——什么阶段需求最旺?
三、理解数据
该数据集共有6875条记录,每条记录有14个属性。
• 城市
• 公司全名
• 公司ID(唯一标识该公司)
• 公司简称
• 公司大小
• 公司所在商区
• 职位所属(公司哪个部门)
• 教育要求
• 公司所属领域
• 职位ID(唯一标识该职位)
• 职位福利
• 职位名称
• 薪水
• 工作年限要求
四、数据清洗
1. 选择子集
利用“隐藏”功能,从原始数据中选择部分数据(即子集)作为分析对象。
2. 列名重命名
双击单元格,修改列名。
3. 删除重复值
选择能够唯一标识该行记录的属性列进行操作。(根据职位ID)
4. 缺失值处理
第一步:确定缺失值数量
在已知某列数据完整无缺失的情况下,选中该列查看“计数”(表示该列有多少行数据),再查看其他列的“计数”进行对比。即,【其他列的缺失数量 = 该列的“计数” - 其他列的“计数”】
第二步:定位缺失值
第三步:处理缺失值
• 手动补全缺失值
• 删除缺失值所在行
• 用平均值代替缺失值
• 用统计模型计算所得值代替缺失值
5. 一致化处理
“一致化”是指数据是否有统一的标准或者命名
A. 分列
B. EXCEL常用函数
• FIND(要查找的字符串,字符串所在单元格)
• LEFT(字符串所在单元格,从左开始到X位置进行截取)
• RIGHT(字符串所在单元格,从右开始到X位置进行截取)
• MID(字符串所在单元格,开始位置,截取长度)
C. 筛选出不正常的数值(#VALUE!)
最低薪水存在“#VALUE!”:查找和替换,把“K”替换为“k”
最高薪水存在“#VALUE!”:错误值处理,使“最高薪水”等于“最低薪水"
D. 转换数据类型(字符串->数字):利用“分列”功能
6. 数据排序
7. 异常值处理
A. 数据透视表的原理
- 数据分组(split)
- 应用函数(apply)
- 组合结果(combine)
B. 利用函数判断异常值
- COUNT(value1, value2,…):对给定数据集合或者单元格区域中数据的个数进行计数,错误值、空值、逻辑值、文字则被忽略。例如,COUNT(#VALUE!) = 0
- IF(logical_test,value_if_true,value_if_false):例如,IF(测试条件,结果1,结果2),即如果满足“测试条件”则显示“结果1”,如果不满足“测试条件”则显示“结果2”
五、数据分析/构建模型/数据可视化
解决某一类问题的办法,都可以叫模型。
1. 需求在哪里?
- 不同城市的岗位需求和薪资水平
结论:
- 全国数据分析师的人才需求量将近一半集中在北京
- 北上深杭广提供91.32%的工作机会
- 北京的薪资是最高的,其次是深圳、上海和杭州
2. 需要什么样的人才?
- 对工作年限的需求
结论:
- 81.74%职位要求1-5年经验
- 数据分析师薪资随工作经验增加显著,3-5年比1年以下翻倍
- 招聘数据分析师非常看重工作经验
- 对职位类别的需求
结论:
- 技术类招聘比占一半,开发、技术薪资最高
- 不同学历需求占比和薪资水平
结论:
- 76%的数据分析职位要求本科学历
- 数据分析师薪资随学历增加不显著,本科与硕士薪资水平无显著差异
3. 什么阶段需求最旺盛?
- 公司规模占比和薪资水平
结论:
- 150人以上公司对数据分析师招聘需求占71.73%
- 随着公司发展,数据分析师重要性愈加凸
4. 数据可视化要点
(1)数据可视化探索步骤
- 你所拥有的数据
- 你想从数据中获取什么信息
- 你该使用什么样的可视化方法
- 你看到的可视化结果是否有意义
(2)不同类型的图表
- 6个图表元素:图表标题、纵横轴标题、类别名称、图例、网格线、数据来源
- 4种常用图表:散点图、折线图、柱状图、条形图
- 其它图表:饼图、箱线图、热力图、雷达图、词云图、AARRR漏斗图
(3)如何选择图表?
- 表格:展示排名前n的数据
- 散点图:展示两个变量的相关关系
- 折线图:展示数据随时间的变化趋势
- 柱形图或条形图:展示不同类别数据的对比
- 尽量避免使用令用户从视觉上难以理解的饼图、3D图表
(4)图表设计原则
- 去掉增加认知负荷的网格线、数据标记
- 避免使用倾斜的文字
- 去掉小数点后无意义的位数
- 删去不必要的图例,直接在图中标记
- 巧用颜色,如使得图和标记的颜色一致
- 避免使用居中对齐的文字,建议左对齐
六、拓展:Excel常用技巧
1. 电商行业业务知识
2. 多表关联查询(VLOOKUP函数)
(1)vlookup函数结构
结构:Vlookup(查找值,数据表,列序数,[匹配条件]);(一定需要注意的是:函数中的参数和参数之间的逗号一定是英文下的逗号。)
(2)参数说明:
(1)查找值:必填项,根据什么查找,查找值必须位于数据表的第一列;
(2)数据表:必填项,查找的区域,若查到多个值,只返回查找到的第一个所对应的数据;
(3)列序数:必填项,返回数据表中第几列的数据(查找结果所对应的);
(4)匹配条件:可选,如果为0(TRUE)表示精确查找;1(False)或省略表示模糊查找
(3)案例参考: