【数据整理】spread，gather，separate 和unite

最新推荐文章于 2023-01-12 17:03:50 发布

Mina笑美

最新推荐文章于 2023-01-12 17:03:50 发布

阅读量940

点赞数 1

分类专栏：知识点专栏文章标签： r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42780204/article/details/116299162

版权

本文介绍了R语言中用于数据整理的函数，包括spread和gather用于宽长格式转换，separate用于拆分列，unite用于合并列。数据整理的原则是保持每一列代表一个变量，每一行代表一个观测。tidyr包提供了这些功能，方便数据的处理和ggplot2的绘图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据整理

原则就是让数据变得更好用。
数据整理是一个从数据框的统计结构（变量与观测）到形式结构（行与列）的映射。他只要遵循原则：
1.每一列代表一个变量。
2.每一行代表一个观测。

整理数据对ggplot2至关重要，因为ggplot2的任务就是将变量映射到视觉属性上。

spread 和 gather

下面两个表格
在这里插入图片描述
他们其实是相同的数据，只是形式不同。左侧是宽数据(Cartesian data，笛卡尔型数据)，你要通过行与列的交叉点来找对应的值。右侧是长数据（indexed data，指标型数据），你要通过指标来找对应需要的数值。我们不能简单的说哪一个更优，因为两种形式都有可能是整洁的。
注意一点，在一个形式下明确存在的缺失值，可能在另一种形式下不存在。NA确实代表了一种缺失情况，但有时数值缺失单纯是因为那里没有值。
数据整理常常需要化宽为长，称为聚集gathering，但偶尔也需要化长为宽，称为扩散spreading。tidyr包分别提供了gather()函数和spread()函数来实现以上操作。
还可以扩展到更高维的情况，但是由于数据总是用二维储存的（行与列），所以这些扩展有趣但不实用。

gather

gather()函数有四个主要参数：

data&#

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。