多数数据科学/机器学习项目都遵循帕累托原理,即我们用将近80%的时间进行数据准备,其余20%的时间用于选择和训练合适的机器学习模型。 通常,我们用于创建机器学习模型的数据集是混乱的,无法直接在模型中使用。我们需要确保输入到模型中的数据都是规整的数据,这就需要执行一些数据清理步骤以获得可以拟合到模型中的数据集。实际上,机器学习/数据科学项目的第一步正是数据的清洗与整理,而且在面对新的项目和问题时,我们往往需要多次重复数据清理过程。可以说数据清理是数据科学家在对数据执行任何EDA(探索性数据分析)或统计分析之前执行的最重要且耗时的过程之一。
1
什么是Tidy Data?
Tidy data(规整数据)是为了可以方便地查看数据和将数据应用在模型中而进行数据清理过程的产物。数据规整的原则定义了一些在执行数据清理操作时需要遵循的准则,从而有助于我们进行数据分析。 它提供了一种标准的方法来组织数据集中的数据值,并使我们定义数据集的方式形式化。 而且,规整数据使数据处理过程更容易。与数据库规范化形式(1NF,2NF,3NF和BCNF)一样,规整数据原则具有一些预定义的规则。
2
整洁数据原则
规整数据的原则包括:
每列代表数据集中的一个单独变量
每行代表数据集中的单个观察值
每种观察单位组成一个表格 (这些原则等效于数据库第三范式,3NF)。
接下来让我们看一些现实的数据集示例,以更详细地了解规整数据的原则。