文章目录 前言 一、类型与格式 保姆级操作演示 二、缺失值 三、重复值 四、异常值 总结 前言 数据收集好了,接下来需要进行数据清理,也就是过滤和“修改”数据(注意,这个修改不是那个修改),使其更易于探索、理解和建模。 其中,过滤是指去掉不想要或不需要的部分,这样就不需要查看或处理它们。 这个“修改”是指数据的格式不是我们需要的,需要修正。 举个栗子,一般导出来的数据可能是这样的: 这个太惨了,列都没有分好。 或者这样的: 这个其实也还好,那种惨不忍睹的找不到了。 最后,来看看,模型认的数据是哪种(这个案例数据是我乱编的):