1.1数据处理的基本操作简介:
首先,我们要对数据进行清洗,包括删除重复的数据、补充缺失的数据、检测有逻辑错误的数据三个步骤;
其次,我们要对数据进行加工,包括对数据字段进行转换、抽取、分组、计算和随机抽样,使之成为我们想要的数据表。
1.2、 数据清洗:
1) 快速查看数据
i. 冻结标题行、冻结首列、拆分窗口
ii. 自动筛选、隐藏功能
iii. 快速定位数据
Crtl+方向键,对单元格光标快速移动,移动到数据边缘(空格位置);比如快速选中每列第一个和或最后一个单元格,快速选中每行第一个和最后一个单元格。
Crtl+Shift+方向键,对单元格快速框选,选择到数据边缘(空格位置);比如快速选中指定单个或行或列的左边或右边的区域、上边或下边的区域。
2) 重复数据的处理
i. 条件格式突出显示重复值
ii. 删除(指定字段范围)重复值
iii. COUNTIF函数来识别重复值
3)处理缺失值
在数据表里,缺失值常见的表现形式是空值或错误标识符,查找到缺失值后,可以通过以下4种方法进行处理。
(1). 用一个样本统计量的值代替缺失值。最常用的是使用该变量的样本平均值代替缺失值;
(2). 用一个统计模型计算出来的值代替缺失值。常使用的模型有回归模型、判别模型;
(3). 将有缺失值的记录删除。但是这样会导致样本量的减少。
(4). 将有缺失值的个案保留。
i.快速查找出缺失的数据
(1)定位空白单元格
编辑选项里单击“查找和定位”按钮,或者Ctrl+G,弹出定位对话框,单击定位条件,选中空值,即可一次性选中空值;
(2)查找替换功能
编辑选项里单击“查找和替换”按钮,或者用Ctrl+H快捷键,在查找内容里面输入要查找的错误标识符.
4) 检查逻辑错误
1.3、数据转换:
1) 行列互换
选中区域复制后,粘贴选项里面选择转置即可;
2) 列列交换
选中列,鼠标变成双十字,按住shift,拖动即可;
3) 数据类型转换
数据类型主要涉及将文本数据转换为数值数据,以及将不规范的日期数据转换为规范的日期数据,
i. 文本数据转换为数值数据
数字格式为文本类型情况下无法计算总和(而单元格为文本格式则可以计算),这就要用到,数据-分列功能,数据就可以求和了。
ii. 非标准日期转换为标准日期
通过分列功能实现,选择相应的格式日期,点击完成后,日期都会变成2014/1/21形式。
iii. 问卷调查数据结果转换
用到函数VLOOKUP(要查找的值、要在其中查找值的区域、区域中包含返回值的列号、精确匹配或近似匹配 – 指定为 0/FALSE 或 1/TRUE)
1.4、数据抽取:
1)分列抽取新字段或者拆分(有固定分割符号)
2)利用文本函数抽取新字段
这种情况适合只提取特定的几个字符、或者是第几个字符,并且没有特定的分隔符时,这里会用到3个函数,LEFT,RIGHT,MID(定位可以结合find/len等函数)
3)通过合并得到新字段
日常工作中,我们有时需要将多列合并到一列得到所需字段,此时需要用到CONCATENATE函数。
4) 利用函数返回值抽取新数据
有时候,我们需要的字段要通过函数计算得出(提取)需要的数据,下面举例说明:
i.使用IF函数返回对应的比率
根据员工的销售业绩计算出提成金额
ii. 根据身份证号提取出生日期
3)根据日期提取星期数
1.5、数据分组
数据分组就是根据统计研究的任务,按照一定的标志,把所研究的社会现象总体分为若干性质相同的组。
1)单项式离散型数据分组
2) 组距式离散型数据分组
i.使用COUNTIFS函数
说明:countifs 的用法与 countif 类似,但 countif 针对单一条件,而 countifs 可以实现多个条件同时求结果。
ii. 使用数据透视表
1.6、数据计算
数据计算指根据现有的数据,通过计算得到想要的结果。
1) 使用SUM函数
进行各月销售数据、库存数据等分别存放于不同的工作表中,我们需要进行季度或全年汇总计算,当各表里的排列都一样时,我们可以直接用SUM函数实现,也可以用合并计算功能。
2)合并计算功能
上面的案例,也可以通过合并计算功能实现
注:进行合并计算的数据位置默认是一一对应的,因此在合并计算时需要多一个操作:
1.7、数据抽样
例如,某公司要对公司员工满意度进行调查,想抽取部分员工,为了体现公正性,可以使用RAND函数来获取随机数,具体操作步骤如下: