表格占据整个页面_Excel从入门到表格分析(一)

Excel从入门到表格分析(一)

Excel电子表格

在分析数据之前,我们首先要对数据进行预处理,比如:清洗、提取、整合。清洗是指对数据的缺失值、异常值进行处理;提取是指将不需要的字段进行删除;整合是指存在另外一种或几种数据维度在当前表当中不存在,需要从其他数据源整合到当前数据表。Excel电子表格可以帮助我们实现这些功能。得益于技术的发展,Excel电子表格不但可以进行基础的增删改查,而且可以创建可视化图表、透视表、自动化报表,支持打印、数据自动填充等自动化功能。在Excel表格的顶端有一些功能栏目:File (文件), Home(开始), Insert(插入), PageLayout(页面布局), Formulas(公式), Data(数据), Review(审阅), View(视图)。以下表格概括了他们的功能:

栏目功能
文件主要涉及到文件保存、打开、分享、导出为pdf等功能
开始调整文本样式、比如字体的大小颜色,数据的格式,表格的颜色格式,以及基础的增删操作等
插入引入现有数据之外的媒介,比如透视表、图片、各个类型的图表、批注等
页面布局打印时的布局调整,比如整体的主题颜色,字体大小,页面边距,横向纵向等
公式提供了所有的计算公式,并且按照处理的数据对象进行了分类,比如最常用的文本函数,查找引用函数,以及数据函数等。也可以定义自有的公式进行引用。
数据主要用于引入数据源,格式可以是网页、文本、数据库等。还可以对数据进行一些预处理工作,比如筛选、删除重复项,对基础统计指标的一些计算等。
审阅提供了用于多人协作的批注功能,以及权限设置功能,文件保护等。
视图提供便于阅读习惯的一些功能,比如单页或者多页报表样式,缩放大小。如果数据量很多,可以使用冻结行列数据固定数据维度,方便操作。如果重复操作比较多,可以通过录制宏的方式将多个操作记录为一个快捷键,然后使用。

Excel常用功能

Excel的功能十分强大。对于数据预处理,我们可以使用Excel的文本函数,重复数据的处理,拆分列数据,和数据排序与筛选等功能。在进行数据查找和计算(统计和分析)时,我们可以使用:

  • 数学函数:SUM, AVERAGE
  • 逻辑函数:OR, NOT
  • 条件聚合函数:COUNTIF, SUMIF
  • LOOKUP引用函数

当然,Excel可以创建可视化图表,比如数据透视表(Pivot Table),各种统计图表来进行数据可视化。

文本函数

文本函数是对文本进行提取、查找、转换、更新的函数。比如,我想讲字符1的列表和字符2的列表进行合并:

字符1字符2
A1B1
A2B2
A3B3
A4B4
A5B5
A6B6
A7B7
A8B8

这时,我们需要使用文本合并类函数,比如CONCATENATE

1ab2c90534c3e333ab65399ae9a0e154.png

如果我们想提取一列中的部分文字,可以使用MID函数。MID函数的用法是MID(text, start_num, num_chars)。这里,text是需要提取的单元格,start_num指从哪一位开始提取(start_num>=1),num_chars表示一共提取多少位。

比如,有这样一列:

91c463780c7c7eb36b4aa949678f5848.png

我们的需求是去掉工作经验一栏中的“经验”二字,并且保留其余的文字。

不难发现,“经验”二字全部为前两个字。所以我们可以使用MID函数对这一列除去“经验”的文字进行提取。首先编写第二行的文本提取:MID(F2,3,6),表示提取F2的内容,从第3位开始提取,提取的总长度为6。然后再用自动补全(将鼠标移动至G2单元格右下角,出现+号指针,并且双击右下角),将整个G列填充,结果如下图:

ef5457b9a44a5d0b230bd693431f8253.png如果我们想将一列中的指定字符替换成想要的字符,可以使用SUBSTITUTE函数。SUBSTITUTE函数的用法是SUBSTITUTE(text, old_text, new_text, instance_num),这里,text是要被替换的单元格,old_text是将要被替换的指定字符串,new_text是想要替换的目标字符串,instance_num是指被替换字符串如果出现多次,替换第几个出现的字符串,如果为空,则默认全部替换。

比如,有这样一列:

ce14e00423905abd5b2da859c7b9c53e.png

我们的需求是将此列中所有内容为1的单元格替换为“本科及以上”。我们可以使用SUBSTITUTE函数,对于文本替换列,我们输入=SUBSTITUTE(H2,1,"本科及以上"),并且使用自动填充,即可得到结果:

c958f06202ad361dcab17e0102e3a519.png

如果我们想验证某一列中是否存在指定字符串(数据验证),可以使用FIND函数。FIND函数的用法是FIND(find_text, within_text, start_num),这里,find_text是指要查找的字符串,within_text是要在其中搜索的字符串单元格,start_num是指开始搜索的位置,如果忽略,start_num默认为1。

比如有这样一列:

d147928c8f694dffb637425b936c26e8.png

我们的需求是判断此列中是否存在“数据分析”这一关键字。我们首先使用FIND函数,对于数据验证列,我们输入=FIND("数据分析",J2,1),并且使用自动填充,可以得到结果:

4c08e11a0267258a232ea3048dde00b2.png我们可以看到,由于有一些类别中并非存在“数据分析”关键字,所以结果中会有错误#VALUE!。对于这样的情况,我们可以进一步使用ISNUMBER函数来统一格式。如果单元格内容为数字,ISNUMBER函数返回TRUE,否则返回FALSE。在FIND函数外再嵌套ISNUMBER函数,我们可以得到结果:

4e6d8a479edf78c0f1ef697b17366566.png其实,掌握了函数的使用方法,我们可以根据具体需求使用不同种类的函数。微软官方也提供了全部函数的使用指南:https://support.microsoft.com/zh-cn/office/excel-%E5%87%BD%E6%95%B0%EF%BC%88%E6%8C%89%E5%AD%97%E6%AF%8D%E9%A1%BA%E5%BA%8F%EF%BC%89-b3944572-255d-4efb-bb96-c6d90033e188。

数学函数

前文中提到的三个函数都是对文本数据进行处理(查找、提取、替换),所以会使用文本函数进行处理。文本函数更多的是对文本进行清洗、格式化。对于数值型数据,我们可以使用数学函数,进行一定的统计计算。我们大致可以将数学函数分为几类:

类型关键字
基本换算SQRT(平方根), POWER(幂运算)
基础统计SUM(求和),AVERAGE(平均值)
类型转换INT (求整),EVEN(求最近的偶数)

这些计算都是基本的数值运算,下面的例子展示了他们的用法:502969c6aa973b88aaf7c964522fba4b.png运算的结果是:

0f818d0b3bd8e56268e8e7de1cee99e1.png

需要留意的是,数学函数的输入参数既可以是手动输入的数值数据(非单元格数据),也可以是单元格数据。比如,统计求和函数SUM()可以统计一列单元格的总和:e22bee289c878bbf51ac1d3a73ba7607.png在之前的章节中,我们提到了集中趋势指标和离散趋势指标。我们可以利用数学函数来计算以下工资表的各种指标:

d1d306887b7cedf61d06f9d557460808.png

计算结果如下:abecea1e48ecd57eecf158712695a099.png

处理重复数据

在真实的资料分析工作中,数据的预处理是指数据的清洗、格式化、去重、排序和基础计算。这一步很可能会占据整个分析工作50%以上的时间。为什么数据预处理如此地重要呢?是因为如果数据预处理没有做好,比如存在一些缺失值、异常值,那么最后的数据分析结果的准确性会直接受到影响,从而造成错误的统计结果和结论。之前的章节已经介绍了如何处理缺失值和异常值。对于缺失值、异常值可以进行删除或者填充平均值的方法进行处理。那么对于重复数据,应该如何处理呢?

首先我们需要定位重复数据。EXCEL已经提供了定位重复数据的功能。在开始菜单中找到条件格式,选择突出显示单元格规则中的重复值,重复的数据就会被高亮:

49d4b9033d96e260e354b095e6c72515.png

7c6fa7466aac3ee9ed75a7d6f01f1ecb.png

但是,条件格式在查找多列的重复数据时并不好用,因为它会将很多并非每列都重复的单元格也标红,比如以下例子:1d4af02d3a0966289a8131241dde23a5.png那么对于涉及多列的重复值筛选操作应该如何完成呢?比如我们现在有这样一张招聘数据表:

eaa04866786d524313aec29785cf05cb.png

显然,后三行和第三行到第五行是重复的。我们首先选择想要清除重复数据的区域,然后在数据菜单栏中找到删除重复项,之后会弹出一个删除重复项的列表选择,我们可以针对每一列进行重复值筛选。

236407938b335a307d58d9fa24c74a4e.png

最后会显示删除了几个重复项:

e7b66fc4d19ac483e76d4831d60ed9f7.png

(未完待续)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值