50万数据生成6位数不重复字符串_利用EXCEL分析-数据分析师岗位就业前景

851297b6f7d1a375e0d0ed03c431f39c.png

EXCEL是数据分析常用工具之一,此次分析以招聘网站的数据分析岗位招聘信息为数据集,利用EXCEL进行招聘情况的分析。

9e9f0aaf84a21ce2353894b54106a533.png

一 提出问题

1.哪些城市对数据分析师职位的需求量比较大?

2.数据分析岗位的薪水如何?(平均薪资对比)

3.数据分析师根据工作经验的不同是怎么变化的(发展前途如何)?

二 理解数据

理解表中各字段(列名)表示什么意思:

城市、公司全名、公司ID、公司简称、公司大小、公司所在商区、职位所属 、教育要求、公司所属领域 、职位ID、职位福利、职位名称、薪水、工作年限要求

e88929d3d173b2c51677ee65944f487e.png

三 数据清洗

这一步,是数据工作中最耗时的一部分(占去60%的时间),【数据清洗】分为以下7个步骤:

4d1a23590de7355bfed03639c35e485e.png

1. 选择子集

只选择对数据分析有意义的字段,无意义的字段隐藏。(尽量不删,保证数据的完整性)

4db27fb502241037532dbad617162bec.gif

2.列名重命名

将列名更改为我们容易理解的形式

3. 删除重复项

对唯一标识列的重复数据进行删除,这里我们对【职场ID】列进行删除重复值处理

实操步骤:数据-删除重复项-取消全选

f38de5e2be1e6c389b32902a76cbbf03.gif

4.缺失值处理

唯一标识列与其他列的列计数一一对比

例如:通过选取「城市」与「职场ID」列,在右下角计数项发现「城市」列有两个缺失值。(5030行与5032行)

36a2f5ec79780c8b3bd8e2f12035dffb.gif

实操步骤:定位【城市】列所缺失值(Ctrl +G)及一次性补全所有的缺失值(输入补充内容——Ctrl +Enter)

cea4db12237c61b6f86884a126131a20.gif

缺失值处理的 4 种方法:
①通过人工手动补全
②删除缺失的数据
③用平均值代替缺失值
④用统计模型计算出的值去代替缺失值

5. 一致化处理数据(统一的标准和命名)

1) 首先,我们对【公司所属领域】进行分列处理,记得要将数据先复制到最后一列,因为分列功能会覆盖掉右列单元格。

a0e8bb07f4886cc487a6638ed7760ecb.png

2) 接下来,我们将薪水处理成「最低薪水」,「最高薪水」,从而算出平均薪资。这里有多个方法可以实现:

-使用分列功能,将「-」作为分隔符号,然后用「查找替换」功能替换掉「k」

-使用函数(FIND、LEFT、MID)

- Excel2013以上版本提供的一个新功能「快速填充」

(下面演示函数和快速填充)

- 函数

FIND(待查找的字符串,包含待查找字符串的字符串,查找起始位置)

示例:=FIND(“456”,”123456”),其结果为:4。

=FIND(“456”,”123456”,4), 其结果为:4,而不是1。

=FIND(“456”,”123456”,5), 其结果为:#VALUE!。

=FIND(“2”,”123234”,3),其结果为:4

LEFT(待截取的字符串,截取字符串的位数)

示例:=LEFT(“YF20140501”,5),其结果为:YF201

MID(代截取的字符串,起点的位数,截取的位数)

示例:A1单元格为张三的身份证号:510902199807248385,我们要在B1单元格显示其生日信息。

B1单元格的公式为:=MID(A1,7,8),结果为:19980724

88a1f74d3b937d95baa212a91fefe23b.png

FIND函数表示:查找字符【k】在Q2单元格的位置。

LEFT函数表示:在Q2单元格中,从左到右截取「k」所在的前一位置。

同理,我们通过函数「=MID(Q2,FIND("-",Q2)+1,LEN(Q2)-FIND("-",Q2)-1)」截取出最高薪水:

deaf2ff978201c862fa6d5ab5fb0e720.png

用函数计算完最低薪水和最高薪水后,我们要检查一下是否有错误值,点击「筛选」,查看下列里是否存在「#VALUE!」:

c0d65a09b2a48cd82a2b83c8a228e72a.png

从最低薪水处筛选错误值查明:是「k」的大小写问题。使用查找替换功能将所有K替换成k即可。

7158a5cf57e3bf15888ffe79ad506900.png

从最高薪水处筛选错误值查明:是薪水列的格式【XXk以上】不规范的问题,此时将最高薪水等同于最低薪水即可。

5e47d7633e837fba18778e97b4689e66.png

接下来,我们计算「平均薪水」。这里会出错,因为最低薪水和最高薪水的数据类型不是数字,而是文本,所以无法完成计算

07ee7677328262542a8df60775c758d5.png

于是,我们需要将「最低薪水」和「最高薪水」从文本格式转换为数字格式。在更改格式之前,我们需要使用「选择性粘贴」将「最低薪水」和「最高薪水」的函数计算结果变成数值;然后用「分列」功能将数据类型从文本转换为数值:

b0fcae6ec5b96ada364a6a0d7d226c76.png

0e5626db456c823ee106ef5bc37ce6b0.png

这样「平均薪水」就计算正常了

1f0684c6dd7af5397d088c3e90b17ecb.png

-快速填充

28e06f8e6bbefe444a764d7c0af627fa.gif

6. 数据排序

对[平均薪水]进行降序排列

1af001bedea8063f9e0a15723630afe2.png

7.异常值处理

利用数据透视表观察有没有异常值。比如我们从职位名称的计数项可以发现很多跟数据分析不相关的职位:

ea7d838105cb1cd69ee14501783a86e0.png

接下来我们要处理掉这些异常值,利用函数「=IF(COUNT(FIND({"数据运营","数据分析","分析师"},L4)),"是","否")」

a1dde8983f3f239134b2bed59caafbfe.png

最后筛选出符合数据分析师的职位,并将结果保存到另外一张表上。到此数据清洗的所有步骤已完成,接下来我们开始构建模型。

四、构建模型

1.哪些城市对数据分析师职位的需求量比较大?

630f0e7a66f84088e517d3abc5cb4672.png

将结果绘制成条形图。

6319317bae24d8628fac9714091500ad.png

从图中得出,北京的数据分析工作机会最多,往后是上海、深圳、广州、杭州。

2.数据分析岗位的薪水如何?(平均薪资对比)

251c3fd69b2b06b1ce838d1fb542c46c.png

将结果绘制成条形图。

e0e99a7ce2a28b4571fe639f73bda6e2.png

图中表明,各大城市数据分师行业整体薪资水平表现不错,都是6K以上,其中北京平均薪资12K+,居首位。

3.数据分析师根据工作经验的不同是怎么变化的(发展前途如何)?

1d1aa66077eceb78f67017deb878202f.png

325dd42fd912e234a40c5f48a9830114.png

毫无疑问,随着工作年限的增加,薪资水平也在不断提高;并且可以看出数据分析师是个常青职位,因为随着时间的增长,收入不会减少,反而越来越高。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值