python pivot table 多层索引顺序_详解|规整数据(Tidy Data)的理论与Python实践

数据清理是数据科学项目的关键步骤,Tidy Data原则提供了数据组织的标准。本文通过实例解释了如何使用Python的pandas库,特别是pivot_table函数,将数据转换为规整格式,确保每列代表一个变量,每行表示单个观察值,每种观察单位组成一个表格。
摘要由CSDN通过智能技术生成

    多数数据科学/机器学习项目都遵循帕累托原理,即我们用将近80%的时间进行数据准备,其余20%的时间用于选择和训练合适的机器学习模型。 通常,我们用于创建机器学习模型的数据集是混乱的,无法直接在模型中使用。我们需要确保输入到模型中的数据都是规整的数据,这就需要执行一些数据清理步骤以获得可以拟合到模型中的数据集。实际上,机器学习/数据科学项目的第一步正是数据的清洗与整理,而且在面对新的项目和问题时,我们往往需要多次重复数据清理过程。可以说数据清理是数据科学家在对数据执行任何EDA(探索性数据分析)或统计分析之前执行的最重要且耗时的过程之一。

eec3ee020cace09b47d14394faa95f1e.gif

1

什么是Tidy Data?

    Tidy data(规整数据)是为了可以方便地查看数据和将数据应用在模型中而进行数据清理过程的产物。数据规整的原则定义了一些在执行数据清理操作时需要遵循的准则,从而有助于我们进行数据分析。 它提供了一种标准的方法来组织数据集中的数据值,并使我们定义数据集的方式形式化。 而且,规整数据使数据处理过程更容易。与数据库规范化形式(1NF,2NF,3NF和BCNF)一样,规整数据原则具有一些预定义的规则。

eec3ee020cace09b47d14394faa95f1e.gif

2

整洁数据原则

规整数据的原则包括:

  • 每列代表数据集中的一个单独变量

  • 每行代表数据集中的单个观察值

  • 每种观察单位组成一个表格 (这些原则等效于数据库第三范式,3NF)。

接下来让我们看一些现实的数据集示例,以更详细地了解规整数据的原则。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值