Python调包侠——Pandas循环提速

最新推荐文章于 2024-08-08 08:45:56 发布

Lynqwest

最新推荐文章于 2024-08-08 08:45:56 发布

阅读量1k

点赞数 1

分类专栏： Python学习文章标签： python pandas

本文链接：https://blog.csdn.net/lynqwest/article/details/100655420

版权

本文探讨了如何优化Pandas中的循环操作，包括使用iterrows(), .apply()方法，Pandas和Numpy的向量化操作。通过比较不同方法的效率和适用场景，强调了向量化操作的优势，并给出了提升Pandas数据处理速度的建议。" 122400181,11283024,PCA图像融合算法在MATLAB中的实现,"['图像处理', 'MATLAB仿真', '算法']

摘要由CSDN通过智能技术生成

一、标准for循环

二、Pandas 内置函数: iterrows ()

一、标准for循环

采用for循环遍历每一行，iloc来确定该列值，在数据量较大的情况下，iloc本身耗时较高，同时for遍历使得效率非常低，对于iloc的改进可使用 df.at来代替，对于for循环改进参考下面几个点。

def tradition_loop(df):
    for row in range(0, len(df)):

        if (df['HomeTeam'].iloc[row] == 1) :
            df['Draws'].iloc[row] = 'Draw'

        else:
            df['Draws'].iloc[row] = 'No_Game'

二、Pandas 内置函数: iterrows ()

iterrows()为DataFrame中的每一行产生（index，series）这样的元组。它以索引对的形式遍历DataFrame，以Series的形式遍历感兴趣的列，使得它比标准循环更快。但是iterrows()不能跨行保存dtype。这意味着，如果你在DataFrame dtypes上使用iterrows()，可以更改它，但这会导致很多问题。一定要保存dtypes的话，你还可以使用itertuples()。

itertuples为每一行产生一个namedtuple，并且行的索引值作为元组的第一个元素。nametuple是Python的collections模块中的一种数据结构，其行为类似于Python元组，但具有可通过属性查找访问的字段。

itertuples和iterrows方法可以使效率更快。这些都是一次产生一行的生成器方法

def iterrows_loop(df):
    ans = []
    for index,row

最低0.47元/天解锁文章

Lynqwest

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录