Excel进行数据分析

最新推荐文章于 2024-09-23 20:21:30 发布

hu_wenqiong

最新推荐文章于 2024-09-23 20:21:30 发布

阅读量1.9k

点赞数 5

分类专栏：数据分析

本文链接：https://blog.csdn.net/hu_wenqiong/article/details/86580687

版权

本文介绍了如何使用Excel进行数据分析，包括数据理解、数据清洗和构建模型。在数据理解阶段，涉及查看数据属性、数据类型和隐藏行/列。数据清洗部分讲解了删除重复值、处理缺失值和使用函数进行数据处理。在构建模型环节，主要应用了数据透视表进行统计分析。文章还涉及日期数据处理和多表关联查询，展示了Excel在数据预处理中的实用技巧。

摘要由CSDN通过智能技术生成

众所周知，excel是一个强大的办公软件。作为一个统计学专业的学生，一提到数据分析，大家所用的都是python、C、R等语言，却忘了很多基本的工作完全可以在excel里面用更简单的操作完成，尤其是那些对编程头痛的小伙伴，这是一种福音，当然这些可能只是数据分析师的初级工作。这篇文章是在听了知乎上猴子的live直播后自己整理的，希望能够进一步巩固自己的操作能力。

数据理解

1、试图的详细化
拿到一份数据，我们首先要观察行和列，看看都有哪些属性，如果想要全部看到每一列每一行的数据，就全选列表，然后进行自动换行操作，就会呈现下面的效果：

在这里插入图片描述
2、excel中的数据类型

在excel中如果字符串格式写出的数字是左对齐的，数值格式写出的数字是右对齐的。如下图所示：
在这里插入图片描述
3、数据的隐藏
如果想要隐藏某一列或者某一行，选中这一行（列），然后隐藏就好了。
如果想要显示全部的被隐藏行（列），全选数据然后在开始的格式选项里面选择取消隐藏行（列）

数据清洗

数据清洗的步骤一般有：选择子集、列名重命名、删除重复值、缺失值处理、一致化处理、数据排序、异常值处理。前两个非常简单，删除不要的列和重命名即可，下面只介绍其他的。
1、删除重复值
比如在职位ID这个属性中，有很多重复的职位，我们将它删除掉。选中这一列，在选项卡的数据标识下选择删除重复值就好了。
在这里插入图片描述
2、缺失值处理
处理缺失值的4种办法，根据情况灵活使用：

人工补全
删除缺失数据
均值代替
用统计模型计算
点击每一列，下面会有这一列的计数，告诉你这一列共有多少个值。我们发现：职位ID这一列经过重复值删除后有5032列，而城市只有5030，我们将缺失的位置查找出来。（条件定位空值）

通过公司简称，我们将地址全部填充为上海。（使用ctrl+enter即可）Ctrl+Enter快捷键，在不连续的单元格中同时输入同一个数据或公式时很好用。
3、分列功能

需要注意的是：分列功能会覆盖掉右列单元格，所以我们记得先要复制这一列到最后一个空白列的地方，再进行分列操作。分割后效果如下：

4