numpy和pandas中实现ndarray或dataframe的迭代增加

最新推荐文章于 2024-04-03 14:16:55 发布

hnshhshjq

最新推荐文章于 2024-04-03 14:16:55 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：使用技巧

本文链接：https://blog.csdn.net/hnshhshjq/article/details/80116179

版权

本文分享了在预处理数据时如何高效地使用numpy和pandas进行数据迭代增加，指出直接使用append函数会导致低效，建议预先创建合适大小的零矩阵并通过索引更新数据。通过代码对比，强调了预先分配内存的重要性，以充分利用这两个库的高性能特性。

摘要由CSDN通过智能技术生成

最近预处理一些数据时遇到一个问题，我想利用一个循环，每次从一个dataframe中选取特定的数据，再把这些数据重新组合成为一个新的dataframe，但网上很多关于pandas或者numpy的教程中都很少有讨论过如何实现这样的功能，然而我觉得实际数据预处理过程中却是会经常遇到这种问题的，于是把自己的心得记录下来和大家分享。

我主要参考了这个链接中的内容 https://vimsky.com/article/3717.html

首先感觉很多人的第一反应会是直接建立一个空列表或者空矩阵，每次循环时利用append函数把新的数据添加到末尾，但是这种方式效率是非常低的，因为每一次循环程序都需要重新分配内存，会浪费非常多的时间，完全违背了numpy和pandas高效的特性，正确的做法应该是预先建立一个和最终数据形状相同或者更大的零矩阵，利用索引的方式在每次循环中更新数据，下面利用代码验证两种方式的差异。

import numpy as np
import pandas as pd
import time 
df=pd.read_pickle('pid')

start=time.time()
sss=np.zeros([1550,7])
for i in range(1549):
    a=pd.concat((df.iloc[i,2:4],df.iloc[i+1,4:7],df.iloc[i+1,2:4]))
    sss[i]=a
end=time.time()
print('the time of use method_

最低0.47元/天解锁文章

hnshhshjq

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
numpy和pandas中实现ndarray或dataframe的迭代增加

最近预处理一些数据时遇到一个问题，我想利用一个循环，每次从一个dataframe中选取特定的数据，再把这些数据重新组合成为一个新的dataframe，但网上很多关于pandas或者numpy的教程中都很少有讨论过如何实现这样的功能，然而我觉得实际数据预处理过程中却是会经常遇到这种问题的，于是把自己的心得记录下来和大家分享。我主要参考了这个链接中的内容 https://vimsky.c...
复制链接

扫一扫

专栏目录