数据预处理 数据清洗 数据缺失可能的原因:机器故障、数据未提供、不适合数据(N/A;如学生填写工资信息)……处理缺失的方法:删除数据(缺失少量数据)、根据其他信息手动填补(数据总量少)、自动填补(补0或均值) 异常值与重复数据检测 类型转换与采样 数据描述与可视化 注意:对于数据相关系数r=0时,表示的是两者没有线性相关,而不是不相关。 特征选择 branch and bound:最优,但是搜索量大其他较优算法:速度快 主成分分析 线性判断分析