python常见的数据类型形式化定义_详解：规整数据(Tidy Data)的理论与Python实践

最新推荐文章于 2023-10-08 10:02:46 发布

weixin_39721953

最新推荐文章于 2023-10-08 10:02:46 发布

阅读量580

点赞数

文章标签： python常见的数据类型形式化定义

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39721953/article/details/112042988

版权

本文探讨了数据科学中数据规整的重要性，尤其是Tidy Data原则。介绍了如何使用Python的pandas库将数据从混乱状态转换为规整格式，包括每列代表一个变量、每行代表单个观察值、每种观察组成一个表格的概念，并通过实例展示了如何实现这一转换过程。

摘要由CSDN通过智能技术生成

多数数据科学机器学习项目都遵循帕累托原理，即我们用将近80%的时间进行数据准备，其余20%的时间用于选择和训练合适的机器学习模型。来源：数据科学DataScience

通常，我们用于创建机器学习模型的数据集是混乱的，无法直接在模型中使用。我们需要确保输入到模型中的数据都是规整的数据，这就需要执行一些数据清理步骤以获得可以拟合到模型中的数据集。实际上，机器学习/数据科学项目的第一步正是数据的清洗与整理，而且在面对新的项目和问题时，我们往往需要多次重复数据清理过程。可以说数据清理是数据科学家在对数据执行任何EDA(探索性数据分析)或统计分析之前执行的最重要且耗时的过程之一。

1、什么是Tidy Data?

Tidy data(规整数据)是为了可以方便地查看数据和将数据应用在模型中而进行数据清理过程的产物。数据规整的原则定义了一些在执行数据清理操作时需要遵循的准则，从而有助于我们进行数据分析。它提供了一种标准的方法来组织数据集中的数据值，并使我们定义数据集的方式形式化。而且，规整数据使数据处理过程更容易。与数据库规范化形式(1NF，2NF，3NF和BCNF)一样，规整数据原则具有一些预定义的规则。

2、整洁数据原则

规整数据的原则包括：

每列代表数据集中的一个单独变量

每行代表数据集中的单个观察值

每种观察单位组成一个表格 (这些原则等效于数据库第三范式,3NF)。

接下来让我们看一些现实的数据集示例，以更详细地了解规整数据的原则。

3、每列代表一个单独变量

假设我们有一个存储每位员工的每日冰淇淋销售数据数据集，单击此处下载冰淇淋销售示例csv文件，

最低0.47元/天解锁文章

weixin_39721953

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。