第四章 数据处理
一 、数据处理简介
1.1 定义
根据数据分析的目的,将收集到的数据进行加工整理,以形成适合数据分析要求的样式。
1.2 常用方法
数据清洗、数据抽取、数据计算、数据转换
二 、数据清洗
2.1 定义
筛选清除多余重复数据,补充完整缺失的数据,纠正或删除错误的数据。
2.2 常用方法
重复数据处理、缺失数据处理、空格数据处理
2.3 重复数据处理
(1)函数法
COUNTIF(range,criteria)对区域中满足单个指定条件的单元格进行计数。
(2)高级筛选法
步骤:选中区域、高级筛选,选择不重复的记录
(3)条件格式法
步骤:开始、条件格式、突出显示单元格规则、重复值
(4)数据透视法
步骤:插入数据透视表操作
(5)重复数据删除
步骤:数据工具里的删除重复值
2.4 缺失数据处理
(1)批量填充
案例:存在合并单元格的情况
方法:
A.(取消合并单元格)选中该区域、开始、对齐方式、合并后居中
B.(批量定位填充缺失值)选中该区域、Ctrl+G,定位条件,空值;=、向上箭头、“Ctrl+Enter”,然后粘贴为数值。具体见P68-P69
(2)查找替换
Ctrl+F操作
2.5 空格数据处理
(1)TRIM(text)函数删除文本前后的空格
三 、数据合并
3.1 字段合并
(1)contact(A2,"-",B2,"-",C2)函数,得到字符型数据
(2)连接符&,=A2&"-"&B2&"&",C2,得到字符型数据
(3)DATE函数,=DATE(year,month,day)合并年、月、日,得到数值型数据
3.2 字段匹配
(1)前提:需要匹配的表,关键字段相同且数据类型一致。
(2)VLOOKUP函数
注意:出现“#N/A”的情况有,
A.区域选错了
B.数据存在空格
C.关键字段数据类型不一样
四、数据抽取
4.1 字段拆分
(1)菜单法
数据、数据工具、分列
(2)函数法
LEFT、RIGHT、MID
4.2 随机抽样
(1)RAND()函数
返回[0,1]的均匀分布随机数,若想生成AB之间的随机实数,可用公式“=RAND()*(B-A)+A”,或者“=RANDBETWEEN()”函数,然后再用VLOOUP函数匹配序号对应的字段。
五、数据计算
5.1 简单计算
5.2 函数计算
(1)日期计算
DATEDIF(起始日期,结束日期,年/月/天)
(2)数据分组
A.IF函数分组
B.VLOOKUP函数分组,见P87
六、数据转换
6.1 行列互换
选择性粘贴,转置还有运算
6.2 二维表转一维
运用数据透视表,见P89-P93
6.3 数据类型转换
(1)文本转数值
A.数据量较大
使用分列,常规格式
B.VALUE()函数
(2)数值转文本
A.数据量较大
使用分列,文本格式
B.TEXT()函数
(3)数值转日期
A.数据量较大
使用分列,日期格式