众所周知,excel是一个强大的办公软件。作为一个统计学专业的学生,一提到数据分析,大家所用的都是python、C、R等语言,却忘了很多基本的工作完全可以在excel里面用更简单的操作完成,尤其是那些对编程头痛的小伙伴,这是一种福音,当然这些可能只是数据分析师的初级工作。这篇文章是在听了知乎上猴子的live直播后自己整理的,希望能够进一步巩固自己的操作能力。
数据理解
1、试图的详细化
拿到一份数据,我们首先要观察行和列,看看都有哪些属性,如果想要全部看到每一列每一行的数据,就全选列表,然后进行自动换行操作,就会呈现下面的效果:
2、excel中的数据类型
在excel中如果字符串格式写出的数字是左对齐的,数值格式写出的数字是右对齐的。如下图所示:
3、数据的隐藏
如果想要隐藏某一列或者某一行,选中这一行(列),然后隐藏就好了。
如果想要显示全部的被隐藏行(列),全选数据然后在开始的格式选项里面选择取消隐藏行(列)
数据清洗
数据清洗的步骤一般有:选择子集、列名重命名、删除重复值、缺失值处理、一致化处理、数据排序、异常值处理。前两个非常简单,删除不要的列和重命名即可,下面只介绍其他的。
1、删除重复值
比如在职位ID这个属性中,有很多重复的职位,我们将它删除掉。选中这一列,在选项卡的数据标识下选择删除重复值就好了。
2、缺失值处理
处理缺失值的4种办法,根据情况灵活使用:
-
人工补全
-
删除缺失数据
-
均值代替
-
用统计模型计算
点击每一列,下面会有这一列的计数,告诉你这一列共有多少个值。我们发现:职位ID这一列经过重复值删除后有5032列,而城市只有5030,我们将缺失的位置查找出来。(条件定位空值)
通过公司简称,我们将地址全部填充为上海。(使用ctrl+enter即可)Ctrl+Enter快捷键,在不连续的单元格中同时输入同一个数据或公式时很好用。
3、分列功能
需要注意的是:分列功能会覆盖掉右列单元格,所以我们记得先要复制这一列到最后一个空白列的地方,再进行分列操作。分割后效果如下:
4