![ec0ec078bfb8ecc50e8b695e5403249d.png](https://i-blog.csdnimg.cn/blog_migrate/652b47a5368a7c15eab8c1fefa9a1d2e.jpeg)
没错,就算是在BAT这样的大厂,Excel 一样是最好用的工具之一,所以那些想玩数据的朋友,咱们今天就一起用花5分钟把它玩会喽
没电脑,怎么学?简单,就像看小说一样浏览一遍就行
咱们将从分析的整体框架入手,首先理解所需的步骤及每意义,其次提供详细操作步骤
在此感谢 #猴子数据分析
划重点:Excel就像菜刀,能依你所想把数据操作成各种模样。但是记住了,他只是工具,切菜切的不好不代表你不能开始做饭
看书刷项目的时候不要强求理解每个操作,每个公式,每个参数,每行代码,只要理解这一步是在做什么,为了完成什么任务,输入是什么,输出是什么。下次遇到相同问题怎么办,复制粘贴改一改就好了
上面这段话太重要了,浓缩了我自学两年的全部心血,一定多看几遍
数据分析标准步骤
1. 提出问题——定义清楚问题的
2. 理解数据——收集数据;得到数据描述性信息
3. 数据清洗——数据预处理-清理重复数据集脏数据
4. 构建模型——对清洗后的数据进行分析得到业务指标/用经济学模型训练
5. 数据可视化——将分析结果通过图形的方式展示给老板
先补充点Excel最最基础的操作:
- 拿到始数据别急,先进行备份
- 可通过行号/列号来选择整列数据
- 选择任意单元格-右键-设置单元格格式
- 所有类型可归纳为:字符串(文本;汉子字母)-数字(整数小数)-逻辑(true/false)
注:字符串类型存储的数据无法参与计算——若123为字符串类型,则无法进行加减等运算
常规格式——excel根据内容自动判定类型-其中字符串靠左对齐数字类型靠右对齐
下面将带领大家走一个招聘网站数据进行分析的小案例
理解数据
第一步我们要查看数据,并通过观察数据表的结构及存储方式大概理解数据的结构及重点
首先打开文件,并另存为xlsx格式
![fbb43ed3288246c56494c35e5e93cd7a.png](https://i-blog.csdnimg.cn/blog_migrate/ec4247a65c8505c9c2649821c9b83c49.jpeg)
对着图片先熟悉一下excel面板的基本功能
全选后设置列宽为10以上,并选择自动换行,让数据都能显示全
右键单元格看看每列的存储格式都是什么,思考哪些数据格式不合理
![920d2a0ead25c9a9c50b0d6c7e769867.png](https://i-blog.csdnimg.cn/blog_migrate/36633ad82445837aded88590a66281a1.jpeg)
清洗数据
1.选择子集——只保留某些列—好习惯不删除只隐藏
隐藏不需要的列——右击列号选择隐藏
如何恢复隐藏——全选在“格式”中选择取消隐藏
双击列名单元格——可对列名进行修改
2.删除重复值
点击数据选项卡下“删除重复值”功能按钮
取消全选
勾选列名-职位id 点击确定
3.处理缺失值
1.统计多少缺失值-点击没有缺失的列名,查验一列完整的数据量,由此对比其他列就可得知其他列数据的缺失情况
2.补全数据:
定位缺失值
点击列号全选列
开始下的查找与选择功能
在定位条件中选择空值
补全缺失值
手动输入数据
删除缺失值
用平均值填补缺失值
用统计模型算出的值填补缺失值
如何一次性补全多个缺失值
先在一个空白格中输入“上海”
按住ctrl+ enter 键其他空值也就都变成上海了
4. 一致化处理——数据是否有统一的标准(格式)、命名
将多个字符串组成的数据根据分隔符号分成多个单独的字符串
使用分列功能将某一列按照特定规则拆分-会覆盖右侧单元格故操作前先复制并粘贴
数据-分列-分隔符号-逗号
![b11fd3abcec316541b27e448d4bb73cb.png](https://i-blog.csdnimg.cn/blog_migrate/78c194c7b964a95bd065d3bcad2e7512.jpeg)
将“薪水”栏由文本格式改为数据格式以后方便计算
方法1.将薪水拆分成两栏最低-最高并用替换功能将k字符替换为空格
方法2.函数
![af14b2a7d800ab6b4f34af2fb2952bd0.png](https://i-blog.csdnimg.cn/blog_migrate/3dcfa463b4aca703a78b867e5179015f.jpeg)
1.查找函数
明确要查找的字符串是什么——查找7k-9k中最低薪水
要查找单元格的位置——在右侧新建一列并在单元格第一格子输入find= ;按公式提示填写要查找的内容
最后会返回查找值k所在的位置-出现在第二、第三个位置
2.Left/right函数-(字符串所单元格位置,从左/右开始到xx位置进行截取)
使用find函数-找到目标所谓位置——找到最低薪水的位置-k的位置-1
-find(“k”,T2)-1——得到最低薪水的位置
3.找到最高薪水的为位置——找到分隔符和最后k中间的部分-得到最薪水的位置
Mid函数-从字符串中间位置开始截取
截取长度:len (A2)-Find (“-”,A2)-1
(查找列,起始位置,截取长度)#位置可用find函数找到分隔符+1即可
=MID(T2,FIND(“-”,T2)+1,LEN(T2)-FIND(“-”,T2)-1)
![583c8820e73c861d47ceac8a4ead4a0b.png](https://i-blog.csdnimg.cn/blog_migrate/f0911f37a4791bd7c1867b770a5b805d.jpeg)
![654a2d5a15532c5a85bc023b38cc0dfe.png](https://i-blog.csdnimg.cn/blog_migrate/1937a396acef80366508294ce3246bf5.jpeg)
检查最低薪水处理有无错误——筛选功能
数据-筛选-搜索-只保留最后#value——筛选出错误情况
#发现错误原因是因为部分k为大写
使用查找替换功能处理
点击“薪水”列号全选
开始-查找与选择-替换
将大写K替换为小写k
处理完后问题就自动消失了
检查最高薪水处理有无错误——筛选功能
数据-筛选-搜索-只保留最后#value——筛选出错误情况
#发现错误原因是因为部分hr将最低薪水写成15k以上同时没写最高薪水无法计算
令这一行的最高薪水=最低薪水
![72ca6315f15486bbc77171f8cb208bdf.png](https://i-blog.csdnimg.cn/blog_migrate/17b13a10d51b7363a694e90af0740550.jpeg)
![8b8177136ad75b31ac68435628a8ea0d.png](https://i-blog.csdnimg.cn/blog_migrate/4795fb68d76f1db2d7e7715e2f332173.jpeg)
5. 计算平均薪水
先建立一个新的列-平均薪水
选择列中第一个单元格
点击公式-插入函数-平均值
Number1 中选择最低薪水和最高薪水的第一行——函数的两个参数
将光标在平均薪水第一行右下角出现小十字后双击即可计算整列的平均薪水
处理#div/0错误
计算中除数为o
部分单元格类型非数字型——如何转化
新插入一列
并复制最低薪水列过去选择性粘贴-数值-运算无
分列-分隔符号-全都不选-完成
完成数字的格式转化
![3df5897bc72559405dfc20dfe7360309.png](https://i-blog.csdnimg.cn/blog_migrate/785776a784339002c80eb2dcdc84c38d.jpeg)
![c7cd78f11591ee8142a44d15ce647c9f.png](https://i-blog.csdnimg.cn/blog_migrate/732fa9e38178c1daf267e7e9ef1a68fc.jpeg)
6. 进行一些排序
对平均薪水进行排序-勾选扩展选定区域(保证整行的移动)
7. 运用数据透视表展示数据
分析逻辑:
Split(数据分组)
Apply(应用函数)——对分组后的数据分别运用不同函数进行计算
Combine(组合结果)——对第二步分组后的计算结果进行组合
创建pivot table
调整select a table or range; existing worksheet参数
把想要的字段拖到各自位置-行列数值
右键列名可修改数值统计方式
![3877149b20ca856c9896ebb823143f9c.png](https://i-blog.csdnimg.cn/blog_migrate/0468f99432746766a8cfb97d77e8899c.jpeg)
对招聘网站数据实现该分析
分析哪些职位出现的次数最多
打开列下拉箭头-其他排序选项-按照职位出现的次数降序排列
去除出现过少的异常值-出现过少的职位名称
查找出数据分析师的职位属于的命名为是/不属于的命名为否——在原始表格中操作
![e65b3070078a169d01365213372b81fb.png](https://i-blog.csdnimg.cn/blog_migrate/a6b04b034a512943988c43378ec4121e.jpeg)
=IF(COUNT(FIND({“数据运营”,”数据分析”,”分析师”},l2)),”是”,”否”)
先找到包含字符串的职位
再对不包含的情况进行处理,将未包涵的情况赋值为0
用条件判断语句如果查到了就赋值为是否责就赋值为否
查找所有类型为是的职位
#补充if 语句count语句find语句知识
用筛选功能选择是的列
将筛选出的数据存进一个新的表里
![0a31a206c526d0bf54f9b510f57bef26.png](https://i-blog.csdnimg.cn/blog_migrate/0ed9ea7fdffca24ae2d4bc345f8a4033.jpeg)
右键任意一个数据单元格——可转换成百分比显示
值显示方式-列汇总百分比
![0d9460750d19a244c65d9e58cb893acd.png](https://i-blog.csdnimg.cn/blog_migrate/77eb935a7ee28a1035e3be9b91cda422.jpeg)
8. 构建数据模型
- 安装扩展分析工具包
文件-信息-选项-加载项
管理-excel加载项-转到——分析工具库-确定
- 进行基础的数据建模分析
数据-数据分析-描述统计
在输入区域选择-平均薪水这一列
新建工作表组-命名勾选标志位于第一行
勾选-汇总统计平均数置信区间第k大值(5)第k小值(5)
![ac5dbf784f8b66b116a411612cce2d03.png](https://i-blog.csdnimg.cn/blog_migrate/34afca06b3f213cc4a323b72d04bc449.jpeg)
到这里我们的数据分析工作就完成了,从汇总的数据中我们可以发现数据分析岗位需求量最大的是深圳其次是北京和杭州,所以如果未来打算在这个领域就业的话还是推荐大家去往这些需求量最大的城市。其次数据分析岗位的平均月薪在17k左右,同时随着工作年限的增加工资水平也同比上升,由此可看出现在进入数据分析行业正是最好的时间,行业正在蓬勃发展且不会因年龄的增加而被淘汰。
最后我们再回顾一下数据分析的完整流程
数据处理完整流程
一.提出问题
1. 在哪些城市找到数据分析师工作的机会比较大
2. 数据分析师的薪水如何
3. 根据工作经验不同,薪酬是如何变化的
二.清洗数据——把数据改变成想要的样子以便后期处理
1.选择子集——选择感兴趣的几个列
2.列名重命名——根据喜好重命名
3.删除重复值
4.缺失值处理
5.一致化处理——对数据列中没有命名的数据统一处理
6.数据排序
7.异常值处理
三.可视化呈现数据
四.建模分析——得到有用的insights
关于excel,sql,python ,互联网,面试方面有想了解的咱们评论区聊