数据有效性自动添加一段字符串_用Excel进行数据分析(一)

9db79536192b45f69e0eb84737c533a1.png
文章总体图

一、数据分析中常用的Excel操作1. 基本操作1-1. 显示全部列名以及信息
1、自动换行

ebda15fd38813b817146774fa47e04d3.png
自动居中


2、设置列宽

d2a1e4c3c72b8556406336cb7bf5d7d6.png
设置列宽

1-2. 隐藏、取消隐藏1-2-1. 隐藏列

5a0a5746dd11bb6a59bc66dd12fee594.png
隐藏列

1-2-1. 取消隐藏列
取消隐藏列:

90da4667d12d7ab901c869a05daef67f.png
取消隐藏列
  • “开始”选项卡
  • 格式
  • 取消隐藏

1-3. 删除重复值
删除重复值:根据唯一标识删除重复值

e8849e31695f2e7ae219ea8e023dbdb9.png
删除重复值
  • “数据”选项卡
  • 删除重复项
  • 取消所有列名的全选
  • 选择唯一标识数据的列名

1-4. 查看列值总数
点击列名,选中列,便可以看到列总数

67b6a2db914a3c9a65bffbec53c0ad73.png
城市列数

1-5. 定位列缺失的地方

04d0fa41ae45513482fcbb2588c303e6.png
定位数值缺失地方


步骤

  • 选中列名
  • ”开始选项卡“
  • 查找和选择
  • ”空“值按钮

1-6. 补齐缺失的数据
”CTRL+ENTER“键1-7. 复制-粘贴列

7ff0ebe898dee2358f56dbdda12e18bc.png
复制-粘贴列

1-8. 分列

afc7f7474abf8bc8bd709e6e0800b005.png
分列功能


分列步骤:

  • ”数据“选项卡
  • 分列
  • 选择”分隔符号“按钮
  • 选择”逗号“选项按钮

1-9. 检查数据有效性
1、判断数据是否有效

90fda8a83e3b140b63c6d39ed6ba5f30.png
检查最低薪水数据的有效性


检查有效性步骤:

  • 选中列名
  • “数据”选项卡
  • “筛选功能
  • 下拉滑动条查看所有的数据是否合理

2、查看无效数据产生的原因
在”文本筛选“中选中不正确的列值,查看原因

5b25de9009aa1059f095a75de6589f05.png
查看数据无效原因

1-10. 字符替换

87c76c901ec22386a1d06f9b497122b6.png
替换单位


字符替换的步骤:

  • 开始选项卡
  • 查找和调换
  • 填写替换前后的字符

1-11. 字符串形式数字转为数字类型
对列操作中,将字符串形式数字转为数字类型,步骤如下:

  • 列复制、粘贴,形成新列;隐藏原有的列
  • 对新列采用依据引号来分列操作

2e14f8c56040dc0566c9d4b69179add4.png

9f43fc44aa4dfd62f067560fb56cce76.png

1-12. 数据透视表
原理:

  • 数据分组
  • 应用函数
  • 组合结果

2. 函数2-1. 均值函数

a39fab991fd3746ed81832f2809da5ff.png
均值函数

a95d901f959bc5402cb099fe1819c8c4.png
下拉

830d50b83ddf32d36160ef8051c906b7.png
均值函数结果

2-2. 查找函数

1、find函数
1)用途
查找一个字符串在另一个字符串出现的起始位置
2)函数用法

find

3)函数使用示例

fce95c51822a5e7f66b1fa827caa7ccb.png
find函数使用示例


2、截断函数
1)函数用法
find函数常常配合使用的函数:left、right、mid

left

2)函数使用示例

e385167297c5acc29099f36b092d6f4d.png
截断函数使用示例


3、find函数和截断函数结合
1)find函数、left函数求得最新薪水

88118640cef554b1ab705529742b778b.png
最低薪水


2)find函数、mid函数求得最高薪水

2803320934ff294a7bc68a9288b80bf3.png
最高薪水

3. 日期数据3-1. 日期规范化
需要实现的效果

57bd9f0f733a27b2cc4525559ce5607f.png
效果变化

4b674076af8768de07dc0ac9fc4edb31.png
分列

格式统一化

f8b4358f33d0913c0aa0ffcfe9d9868c.png
单元格格式

3-2. 每月发文涨粉量
创建透视表:行标签为日期,数值为“涨粉数”
单击“日期"列,设置分组。分组依据为”月份“

caed27f2272eb5efe78b4e6b6c2c5894.png
分组-按月汇总


最终效果:

74461d53783e38597f8da72ba1b0eace.png
按月汇总结果

3-3. 每周发文涨粉量

b415e890f4818748b401f8f736390d8b.png
按周汇总数据


最终效果:

2ebccddaa6887a2e84a997f66010d4f4.png
按周汇总结果

3-4. 每月最大涨粉量
操作:值字段设置

54a44775e79f7a0e03d263d25f5c1f1d.png
每月最大值的值字段设置


达到的效果

f9808e35349c7c2c45303048279fd4cc.png
每月最大值效果

4. vlookup
Vlookup可实现两个功能:多表关联查询和数据分组
参数:

vlookup

4-1. 多表关联查询
已知成绩信息表,查询三好学生表中学生的班级

7efe575de777b941ddad2de90de8d315.png
查询班级

tips:vlookup只能获取到一项数据。如果有错误的数据,可以设置辅助列精确查找。4-2. 数据分组

1f645795fd8b905a2bfc4e74bd03c303.png
分组

tips:阈值为范围的最小值二、数据分析
本次数据分析以“数据分析师薪水表”作为分析数据。
数据分析的步骤

  • 明确问题
  • 理解数据
  • 数据清洗
    • 选择子集
    • 列名重命名
    • 删除重复值
    • 缺失值处理
    • 一致化处理
    • 数据排序
    • 异常值处理
  • 数据分析 OR 模型构建
  • 可视化处理

1. 明确问题

  • 哪些些城市找到数据分析师的机会比较大
  • 数据分析师的薪水如何
  • 根据工作经验,薪水是怎样变化的

2. 理解数据2-1. 数据集介绍
数据集是“数据分析师职位薪资表”,总数据量为5033项。2-2. 列名

  • 城市
    职位所在的城市;北京、上海、深圳、杭州、成都等
  • 公司全名
    公司全称,例如:1号店的全称是纽海信息技术(上海)有限公司
  • 公司ID
    公司名可能重复,但是公司ID唯一标识一家公司,不可能重复。
  • 公司简称
    例如:1号店
  • 公司大小
    公司的人数
  • 公司所在商区
    ['五里桥', '打浦桥', '制造局路']
  • 职位所属
    产品、需求、项目、技术等
  • 教育要求
    大专、本科、硕士
  • 公司所属领域
    移动互联网、电子商务、O2O、金融
  • 职位ID
    唯一标识职位,在数据集中作为数据项的唯一标识
  • 职位福利
  • 职位名称
  • 数据分析师、数据运营、分析师、大数据开发工程师等
  • 薪水
    7k~15k、7k以上等
  • 工作年限要求
    应届生、1年以下、1 ~ 3年、3 ~ 5年、5 ~ 10 年、10年以上、不限

3. 数据清洗3-1. 选择子集
在工作区显示需要的列,不需要的列最好不要删除,而是采用“隐藏”的方式。
在“招聘网站数据”Excel表中,隐藏对本次分析无用的列。
1) 公司ID用于标识公司,在分析薪酬的任务中,不需要公司ID这一列的参与。

5a0a5746dd11bb6a59bc66dd12fee594.png
隐藏公司ID


2) “公司全名”和“公司简称”二者作用相同,不需要“公司全名”。

4e1c755cbfde1e3e2177704f641c2b20.png
隐藏公司全名

3-2. 列名重命名
将列名修改为符合规范的列名。3-3. 删除重复值
根据“job ID”删除重复值。

e8849e31695f2e7ae219ea8e023dbdb9.png
删除重复值

3-4. 缺失值处理3-4-1. 判断列缺失数量
"城市"列的缺失数量=“职位ID”列总数-“城市”列总数,其中,“职位ID”为对职位的唯一标识项。
“职位ID”列数和”城市“列数分别为5033、5031,则”城市列“缺失数据为2个。

7d462e36b0c782df265c9f728de7f744.png
查看列项

67b6a2db914a3c9a65bffbec53c0ad73.png
城市列数

3-4-2. 定位值缺失位置

04d0fa41ae45513482fcbb2588c303e6.png
定位数值缺失位置

3-4-3. 对缺失值的处理方式


处理方式有四种:

  • 人工补齐
  • 删除缺失数据
  • 用均值代替
  • 用计算的统计值值代替

由于数据集中只有2个缺失项,采用”人工补齐“的方式。
在缺失数据的位置填入”上海“,按住”Enter+CTRL“即可实现自动补齐。3-5. 一致化处理
含义:数据是否有统一的标准或命名
数据不一致化的情况。3-5-1. 公司所属领域
第一个领域为”移动互联网“,第二个框住的领域有两个,且用逗号隔开。这就是数据不一致的情况。对于后续的数据分析有一定的影响。

d92b6b367b209d084cedc1d5cc9f23ea.png
数据不一致


处理步骤

1、复制、粘贴列

7ff0ebe898dee2358f56dbdda12e18bc.png
复制,粘贴列


2、隐藏原先的”公司所在领域“列

3、”公司所在领域“列根据”,“进行分列

afc7f7474abf8bc8bd709e6e0800b005.png
分列功能


经过上述三步,对”公司所属领域“ 列数据的分列后的效果如下所示:

72ca15a81caa62e5964e996f85095b57.png
分列后的数据

3-5-2. 薪水
目的:由薪水列计算出最低薪水、最高薪水、均值薪水

68145c1160ac6a041e668209103aa0a8.png
薪水操作实现的效果

3-5-2-1. 获取最低薪水
使用find函数+left函数,获取最低薪水

58e6e2b488209bcefb56b980c30dfc45.png
最低薪水


最低薪水计算公式也可以是

=LEFT(M2,FIND("k",M2)-1) 

3-5-2-2. 获取最高薪水
使用find函数+mid函数,获取最高薪水值

e79d71098c848f7b6c0b62f270d0e6ea.png
最高薪水计算

3-5-2-3. 自动填充数据
鼠标位置移动到单元的右下角,”双击“操作,即可自动填充单元列。3-5-2-4. 薪水有效性检查
1、最低薪水
1)检查最低薪水是否存在无效数据

90fda8a83e3b140b63c6d39ed6ba5f30.png
检查最低薪水数据的有效性


2)分析无效原因

5b25de9009aa1059f095a75de6589f05.png
查看数据无效原因


得到下图

a5fabd70f79f556046be580fcf7e5933.png
最低薪水无效原因


由上图可知,无效原因是:k的大写形式。
3)对策:将"k"的大写形式替换为小写形式

87c76c901ec22386a1d06f9b497122b6.png
替换字符


4)二次查看最低薪水是否都有效

1fb88e94057e749f341fa780b6270260.png
二次查看最低薪水有效性


由上图知:不存在未定义的数据。因此,最低薪水都是有效的

2、最高薪水
1)检查最高薪水是否都有效

e3c4e9431072165d296e6f51a0d6903f.png
查看最高薪水有效性


2)分析无效原因

686572d27c2c5ff79906fa29326794fa.png
最高薪水无效性原因


由上图可知,无效原因是很多HR没有填写最高薪水,而是用”以上“代替。
3)对策:使用最低薪水的值填充最高薪水

e1cc658ee9eedd016fac2571d11dcbc4.png
最高薪水无效性对策


4)二次检查最高薪水是否有效

4744aa8bae9d3d5ef19bfb34a6f16b64.png
二次查看薪水是否有效


由上图可知,最高薪水都有效3-5-2-5. 平均薪水计算
计算平均薪水时,需要用到的数据是最高薪水、最低薪水。但是最高薪水、最低薪水数据类型都是字符串类型,不能进行使用。


步骤:

  • 将字符串形式的数字转为数字
  • 计算最高薪水和最低薪水的均值作为平均薪水

3-5-2-6. 将字符串数字转为数字
1、复制-粘贴最低薪水列

  • 右击”最高薪水“列,选择”复制“
  • 复制”最低薪水“列
  • ”粘贴最新薪水“列,粘贴选择”选择性粘贴“,粘贴类型为”数字类型“
  • 隐藏初始的“最低薪水”列

48a2235f0fcfeef6f0fd06f37537ff40.png
复制-粘贴 最低薪水列


2、将粘贴后的新”最低薪水“列由”字符串“类型转为”数据“类型。
通过”分列“选项去除”文本“前面的引号

2e14f8c56040dc0566c9d4b69179add4.png
将字符串类型转为数字类型


3、处理后得到的“最低薪水”列

ba3482aa60985c31e3a9ddb057990d72.png
最低薪水列最终效果


判断处理成功的两个标志:

  • 数据格式为“数值”类型
  • 单元格左上角无绿色三角形

4、采用同1,2,3一样的步骤,处理最高薪水列3-5-2-7. 计算平均薪水

420252369895288d0d936f550d57bd4a.png
均值薪水计算


此时,便可以得到平均薪水的值。
考虑到平均薪水可能存在小数,需要调整平均薪水的数值格式。3-6. 数据排序
目的:对数据表按照“平均薪水”列的值按序排列
步骤:
1)在排序过程中,为了防止首行参与到排序中,对首行进行“隐藏”操作。
2)对表格按照“平均薪水”的数值大小进行排序

b9defa270ce8499980c5cdf19622bed3.png
按“平均薪水”的序列对表格排序


3)取消首行的隐藏,对首行进行“冻结窗口”操作。可以实现方便查看数据。

e55e70a5ab8366e96ee72dea2f2911fa.png
薪水排序效果

3-7. 异常值处理
目的:采用数据透视表的技术功能选取属于数据分析师岗位的职位信息3-7-1. 先期设置
1、取消“自动筛选”

d748bb2b325ac9bc2423ba015631e0dc.png
取消自动筛选


2、设置数据区域为表
1)判断行数
“职位ID”的数据数量,即为行数
2)设置表

6dd86f2b168cb8f7983d7cfc51f66612.png
设置表数据来源

3-7-2. 数据透视
1、创建数据透视表

8c86b23a0eb18cb4c05deb3c4a1d9189.png
创建数据透视表


2、数据透视表示例

  • 行——分组依据
    值相同,分为一组;值不同,分为不同组
  • 求和——应用
    默认:对每一行的数据统计出现的次数

46568db413e17110ec325a37f1c3af3e.png
数据透视表示例1


上图中,行标签是:职位名称;数值:对职位名称分组后的数据出现次数。
3、查看是否存在异常值
1)数据排序

bd80999084f4ebd69f9bc6ad2e41eb9f.png
查找异常值——排序


2)查看异常值

5a63dbab319741806904a7404ecdc68e.png
异常值


排序后的数据,出现次数最多的师数据分析师、数据产品经理。
大数据开发工程师和需求分析师是错误的数据,因此,需要将这些异常数据给处理掉
3)处理异常数据

  • 判断职位名称是否是数据分析师职位:数据运营、数据分析、分析师等。

8a0a1fb8245170129b9c8fd7c4b7c82c.png
find函数查找是否包含指定数字
  • 判断属于数据分析师,设置为是;不属于数据分析师,设置为否

aef7c32c1443778a5d4c023d504c9a49.png
if函数判断是否是数据分析师岗位
  • 筛选出是数据分析师岗位的数据

3750da5fbc8d07e8a8997ff46f2d97a7.png
筛选职位


4、将筛选后的数据复制到新建的Excel文件中4. 数据分析4-1. 分析 城市-工作年限-工作数量关系
1、设置行标签、列标签、数值

ebb6d071665628396116701e4e86a2d2.png
城市-年限数据透视表


行标签:城市——分组依据是城市名称
列标签:工作年限
数值:城市——统计按照城市分组后的岗位数量
2、对透视表继续排序

661aef74c374a7882cce2ee9ff0427ee.png
按数量排序


降序排序:按照技术项-城市进行排序
3、分析结果

c416c7a86deb70b9a404a4fcce7fe27e.png
排序后的结果


由上图分析结果知:
对数据分析师需求量前五的城市是:北京、上海、深圳、广州、杭州。其中,北京需求量最大
数据分析师工作年限1 ~ 3年、3 ~ 5年需求量处于Top2。其中,1~3年工作经验的数据分析师需求量最大。
4、换种数据表示方式
按列汇总的百分比

5642b94912720bcb09f454e47a684562.png
值显示方式


显示结果

857dc6cc339fa3900f8a0e40edb713d8.png
值显示方式:列汇总的百分比

4-2. 分析城市-薪资关系
1、加载分析工具库

dd82cefecefdbebe17eb2dba45fa65be.png
加载分析工具库


以平均薪水为例,查看统计数据。

a726df47414df378331a7b17bc16c0a0.png
平均薪水统计数据


2、制作数据透视表

a6e2c67a0eaae7e2e59561ed69f311b9.png
薪水-城市


由图可知,薪水最高的城市Top5是深圳、背景、上海、杭州、苏州。4-3. 分析工作年限-薪资变化情况

02ffb9432c1eb33de1e3b367dbcb6436.png
工作经验-薪资


随着年限的增加,数据分析师的薪资逐渐增加。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值