python常见的数据类型形式化定义_详解:规整数据(Tidy Data)的理论与Python实践

本文探讨了数据科学中数据规整的重要性,尤其是Tidy Data原则。介绍了如何使用Python的pandas库将数据从混乱状态转换为规整格式,包括每列代表一个变量、每行代表单个观察值、每种观察组成一个表格的概念,并通过实例展示了如何实现这一转换过程。
摘要由CSDN通过智能技术生成

多数数据科学 机器学习项目都遵循帕累托原理,即我们用将近80%的时间进行数据准备,其余20%的时间用于选择和训练合适的机器学习模型。来源: 数据科学DataScience

通常,我们用于创建机器学习模型的数据集是混乱的,无法直接在模型中使用。我们需要确保输入到模型中的数据都是规整的数据,这就需要执行一些数据清理步骤以获得可以拟合到模型中的数据集。实际上,机器学习/数据科学项目的第一步正是数据的清洗与整理,而且在面对新的项目和问题时,我们往往需要多次重复数据清理过程。可以说数据清理是数据科学家在对数据执行任何EDA(探索性数据分析)或统计分析之前执行的最重要且耗时的过程之一。

1、什么是Tidy Data?

Tidy data(规整数据)是为了可以方便地查看数据和将数据应用在模型中而进行数据清理过程的产物。数据规整的原则定义了一些在执行数据清理操作时需要遵循的准则,从而有助于我们进行数据分析。 它提供了一种标准的方法来组织数据集中的数据值,并使我们定义数据集的方式形式化。 而且,规整数据使数据处理过程更容易。与数据库规范化形式(1NF,2NF,3NF和BCNF)一样,规整数据原则具有一些预定义的规则。

2、整洁数据原则

规整数据的原则包括:

每列代表数据集中的一个单独变量

每行代表数据集中的单个观察值

每种观察单位组成一个表格 (这些原则等效于数据库第三范式,3NF)。

接下来让我们看一些现实的数据集示例,以更详细地了解规整数据的原则。

3、每列代表一个单独变量

假设我们有一个存储每位员工的每日冰淇淋销售数据数据集, 单击此处下载冰淇淋销售示例csv文件,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值