数据清洗是一项复杂切繁琐的工作,同时也是整个数据分析过程中最重要的环节。数据清洗的目的在于提高数据质量,将“脏”数据(“脏”数据在这里指的是对数据分析没有实际意义,格式非法,不在指定范围内的数据)清洗干净,使原数据具有完整性,唯一性。权威性,合法性,一致性等特点。常见的数据清洗操作包括重复值得处理,缺失值的处理,异常值的处理等操作,同时,为了保证数据的有效性,少不了数据校验操作。本章将针对数据清洗和校验进行详细讲解。
完全去重
“CSV文件输入”配置
“唯一行”配置
不完全去重
“文本文件输入”配置
“唯一行”配置
去除缺失值
“文本文件输入”配置
“选择/改名值”配置
“过滤记录” 配置
Excel输出 配置
填充缺失值
“文本文件输入”配置
“过滤记录”配置
“替换null值”配置
“合并行”配置
“替换null值2”配置
“选择/改名值”配置
删除包含异常值的记录
“文本文件输入”配置
“过滤记录”配置
修补异常值
“表输入”配置
“过滤记录”
“设置值为null”
“合并行”
“替换null值”
“选择/改名值”
数据一致性处理
表输入配置
“值映射”
“复制/更新”配置
“作业时间调度”配置
“转换”配置
“作业”
数据规范化处理
“自定义常量数据”配置
“计算器”配置
“数据检验”配置