python对数据集进行排序_关于python：在大型数据集的pandas中排序

最新推荐文章于 2021-12-12 09:37:54 发布

weixin_39623355

最新推荐文章于 2021-12-12 09:37:54 发布

阅读量913

点赞数

文章标签： python对数据集进行排序

本文链接：https://blog.csdn.net/weixin_39623355/article/details/111449612

版权

我希望按给定的列(特别是p值)对数据进行排序。但是，问题是我无法将整个数据加载到内存中。因此，以下内容不起作用，或者只适用于小数据集。data = data.sort(columns=["P_VALUE"], ascending=True, axis=0)有没有一种快速的方法可以按给定的列对我的数据进行排序，该列只考虑数据块，不需要在内存中加载整个数据集？您的数据存储在哪里？有多大？什么是记忆限制...

摘要由CSDN通过智能技术生成

我希望按给定的列(特别是p值)对数据进行排序。但是，问题是我无法将整个数据加载到内存中。因此，以下内容不起作用，或者只适用于小数据集。

data = data.sort(columns=["P_VALUE"], ascending=True, axis=0)

有没有一种快速的方法可以按给定的列对我的数据进行排序，该列只考虑数据块，不需要在内存中加载整个数据集？

您的数据存储在哪里？有多大？什么是记忆限制？

它是几个TB文件，集群上的最大可用内存约为250Gbs。

你是怎么存储的？假设是hdf？

这是一个文本文件。

请参见pandas.pydata.org/pandas-docs/dev/io.html和pandas.pydata.org/pandas-docs/dev/cookbook.html hdfstore；hdf5是一种非常高效的格式，用于快速和节省空间的存储SND检索。分类是以分块的方式进行的，但肯定是可能的。

我和一些同事也遇到了同样的问题。我们最终做的是在文件上进行一个并行处理，将文件分割成100万行更小的文件块。然后，根据您的排序方式，您可以想出某种目录方案来"排序"文件。如果是事务数据，可以使用awk或pandas将每100万行块解析为一个相对年份的季度目录/文件，然后对这些聚合文件进行排序。如果您需要一个文件中的数据，那么在最后，您可以按顺序将它们重新堆叠在一起。祝你好运！

这似乎与使用熊猫的"大数据"工作流程有关。@Jo&227；OAbrantes似乎您正在寻找代码解决方案。你试过那个线程中发布的解决方案了吗？

@我想代码不是针对排序问题的

在过去，我使用Linux的两个著名的sort和split实用程序对大熊猫窒息的大文件进行排序。

我不想贬低这一页上的另一个答案。但是，由于您的数据是文本格式(如注释中所示)，我认为开始将其转换为其他格式(HDF、SQL等)是非常复杂的，因为GNU/Linux实用程序在过去30-40年中一直非常有效地解决了这一问题。

假设您的文件名为stuff.csv，如下所示：

4.9,3.0,1.4,0.6

4.8,2.8,1.3,1.2

然后，以下命令将按第3列对其进行排序：

sort --parallel=8 -t . -nrk3 stuff.csv

请注意，这里的线程数设置为8。

上面

最低0.47元/天解锁文章

weixin_39623355

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python对数据集进行排序_关于python：在大型数据集的pandas中排序

我希望按给定的列(特别是p值)对数据进行排序。但是，问题是我无法将整个数据加载到内存中。因此，以下内容不起作用，或者只适用于小数据集。data = data.sort(columns=["P_VALUE"], ascending=True, axis=0)有没有一种快速的方法可以按给定的列对我的数据进行排序，该列只考虑数据块，不需要在内存中加载整个数据集？您的数据存储在哪里？有多大？什么是记忆限制...
复制链接

扫一扫