作者:禅与计算机程序设计艺术
1.简介
数据预处理(Data Preparation)是数据科学中最重要的一环,也是经验丰富的数据科学家所需要掌握的内容。然而,由于初学者往往对数据的结构、规律不熟悉,导致很难将数据转化成可用于机器学习等数据分析任务中的输入。因此,如何清晰地、正确地准备好数据成为一个必不可少的技能。本文将会详细阐述“数据脏数据”(Dirty data)、“重复数据”(Duplicate data)、“缺失数据”(Missing data)、“离群点数据”(Outlier data)、“多重共线性”(Multicollinearity)、“变量交叉”(Variable interaction)、“标准化数据”(Normalization of data)、“标称化数据”(Nominalization of data)、“编码转换”(Encoding conversion)、“拆分目标变量”(Splitting target variable into dependent and independent variables) 等数据预处理过程中的关键概念。
本文通过图表、示意图、公式及代码实例来向读者展示这些处理方法,并对这些处理方法产生的影响进行深入剖析,帮助读者理解这些处理方法背后的原理及应用场景。</