大数据的题目需要进行数据预处理,处理缺失值和异常值
缺失值、异常值的检测和处理
数据的不一致:比如说单位的不同,kg和g
噪声数据:数据中存在明显的错误或异常(偏离期望值)
收集数据时出现失误或者设备出现故障;
输入或传输数据时有误;
存储介质有可能出现损坏;
数据预处理的任务:
数据清洗:去掉噪声数据,纠正不一致
数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集
数据规约:通过聚集、删除冗余属性或者聚类等方法进行压缩
数据变换:对数据进行规范化的操作,转换成适当的格式,比如说简单函数变换、归一化(按照比例映射缩放)
缺失值处理:
处理缺失值的方法:删除记录or数据插补,插补方法有均值/中位数/众数插补,使用固定值,最近邻插补,回归方法,插值法