6月12日给大家讲解了一下数据获取的东东(时隔略久,忘记的请点击数据获取回顾),时隔一个月,接着我们的 用Excel进行数据分析系列 的第二篇:数据处理。文末有获取本篇实例数据的方法。
目录:
一、缺失值
1、筛选
2、定位空值
3、缺失值的处理
4、实例
二、重复值
1、countif函数
2、条件格式
3、数据透视表
三、异常值
1、异常值的判断
2、实例
四、字段拆分
1、分列
2、文本函数
3、实例
正文开始:
爬取了某招聘网站关于数据分析的职位的信息进行数据处理的实例讲解
原始字段:
岗位:岗位名称
地址:地市+区
薪资:薪资+X年经验+学历
薪资2:薪资
公司:公司名称
公司概况:公司所属行业+规模+人数
一、缺失值
缺失值即数据值为空,或为NULL等,寻找缺失值有很多方法,这里提供筛选和定位空值两个思路。
1、筛选
我们发现学历一栏里是有空值的,寻找空值的方法很多,这里提供两个方法,一个是直接筛选,在Excel里对于数据量较少的情况下筛选空值是很有效的一个方法,数据——筛选里可以找到,筛选的快捷键是“ctrl+L”.
2、定位空值
开始——查找——定位条件里选择定位空值,可以筛选出所有空值。
3、缺失值的处理
对于寻找到的缺失值我们该如何处理呢,这得看实际的数据和业务需求了,一般来说可以有以下3种处理方式,直接删除、保留和寻找替代值。
直接删除:直接删除的优点是删除以后整个数据集都变得完美了,都是有完整记录的数据,缺点是缺少了部分样本可能导致整体结果的偏差。对于有大量缺失值的在衡量利弊的情况下建议就直接删除了吧,缺失了大量关键数据的样本集统计起来也没有什么意义。
保留:保留缺失值,优点是保证了样本的完整,缺点是你得知道为什么要保留,保留它的意义是什么,是什么原因导致了值的缺失,是系统的原因还是人为的原因,这种保留建立在缺失单个数据的情况下,且缺失值是有明确意义的。
寻找替代值:如用均值、众数、中位数等代替缺失值,优点是简单且有依据,缺点是可能会使缺失值失去其本身的含义。对于寻找替代值的除了统计学中常用的描述数据的值以外,还可以人为地去赋予缺失值一个具体的值。
4、实例
具体到本例中,学历为空的缺失值我们如果直接删除,会发现在年限一栏里就少了应届毕业生这个变量了,所以不能直接删除。保留的话,按照常识,就算是应届毕业生也应该有相应的学历,是什么应届,高中?大专?本科?硕士?所以保留也不行。那