Excel数据处理(缺失值/重复值/异常值/拆分)

本文是用Excel进行数据分析系列的第二篇,详细讲解了数据处理中的缺失值处理(筛选、定位、处理策略)、重复值查找(countif函数、条件格式、数据透视表)、异常值判断与处理以及字段拆分(分列与文本函数)。通过实例展示了如何在数据分析中应用这些技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

6月12日给大家讲解了一下数据获取的东东(时隔略久,忘记的请点击数据获取回顾),时隔一个月,接着我们的 用Excel进行数据分析系列 的第二篇:数据处理。文末有获取本篇实例数据的方法。

目录:

一、缺失值

    1、筛选

    2、定位空值

    3、缺失值的处理

    4、实例

二、重复值

    1、countif函数

    2、条件格式

    3、数据透视表

三、异常值

    1、异常值的判断

    2、实例

四、字段拆分

    1、分列

    2、文本函数

    3、实例

正文开始:

爬取了某招聘网站关于数据分析的职位的信息进行数据处理的实例讲解

原始字段:

  • 岗位:岗位名称

  • 地址:地市+区

  • 薪资:薪资+X年经验+学历

  • 薪资2:薪资

  • 公司:公司名称

  • 公司概况:公司所属行业+规模+人数

 

一、缺失值

缺失值即数据值为空,或为NULL等,寻找缺失值有很多方法,这里提供筛选和定位空值两个思路。

1、筛选

我们发现学历一栏里是有空值的,寻找空值的方法很多,这里提供两个方法,一个是直接筛选,在Excel里对于数据量较少的情况下筛选空值是很有效的一个方法,数据——筛选里可以找到,筛选的快捷键是“ctrl+L”.

 

2、定位空值

开始——查找——定位条件里选择定位空值,可以筛选出所有空值。

 

3、缺失值的处理

对于寻找到的缺失值我们该如何处理呢,这得看实际的数据和业务需求了,一般来说可以有以下3种处理方式,直接删除、保留和寻找替代值。

  • 直接删除:直接删除的优点是删除以后整个数据集都变得完美了,都是有完整记录的数据,缺点是缺少了部分样本可能导致整体结果的偏差。对于有大量缺失值的在衡量利弊的情况下建议就直接删除了吧,缺失了大量关键数据的样本集统计起来也没有什么意义。

  • 保留:保留缺失值,优点是保证了样本的完整,缺点是你得知道为什么要保留,保留它的意义是什么,是什么原因导致了值的缺失,是系统的原因还是人为的原因,这种保留建立在缺失单个数据的情况下,且缺失值是有明确意义的。

  • 寻找替代值:如用均值、众数、中位数等代替缺失值,优点是简单且有依据,缺点是可能会使缺失值失去其本身的含义。对于寻找替代值的除了统计学中常用的描述数据的值以外,还可以人为地去赋予缺失值一个具体的值。

 

4、实例

具体到本例中,学历为空的缺失值我们如果直接删除,会发现在年限一栏里就少了应届毕业生这个变量了,所以不能直接删除。保留的话,按照常识,就算是应届毕业生也应该有相应的学历,是什么应届,高中?大专?本科?硕士?所以保留也不行。那

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

进击的可乐!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值