Python处理数据常见问题解决方案（2）Dataframe使用 append()添加大量数据时效率变低，处理时间过长，无法接受。

最新推荐文章于 2024-06-17 20:28:23 发布

查理斯韦

最新推荐文章于 2024-06-17 20:28:23 发布

阅读量3.7k

点赞数

分类专栏： Python 文章标签： python 大数据

本文链接：https://blog.csdn.net/weixin_42132740/article/details/113342768

版权

在处理350,000行大数据时，原始的DataFrame append()方法导致耗时过长，超过8小时仅处理110,000行。改用将数据存储在字典中并按列组织的策略，处理同样数量的数据耗时不到1.5小时，显著提高了效率。" 128982557,16546593,斑点鬣狗算法优化BP神经网络SHO-BP预测,"['算法优化', '神经网络', 'matlab']

摘要由CSDN通过智能技术生成

问题描述：

在用python给dataframe添加数据的过程中，我们经常使用append()方法往dataframe中一行一行的添加数据。但是当数据过多时，append()方法效率变得地下。近期我需要处理350,000行的数据，需要对其中的每一行做处理，组装成新的一行，再使用append()把新组装的一行添加至新的dataframe。

在MacBook上用Pycharm运行了8个小时，只执行了append()约110,000行，这个速度是无法接受的。所以需要找到一种更快的组装dataframe的方法。

以下同样添加300,000行数据至dataframe中，案例一是原始方法，案例二是改进后的方法。

案例一、失败，耗时，耗内存，随着数据增加，速度慢得不能接受：

总耗时约30分钟：

import pandas as pd
from datetime import datetime
import random

column_name = ['a', 'b', 'c', 'd']
test_df = pd.DataFrame(columns=column_name)

start_time = datetime.now()
for index in range(0, 300000):
    print(index)
    test_df=test_df.append({'a':random.randint(0, 9), 'b':random.randint(0, 9), 'c':random.randint(0,

最低0.47元/天解锁文章

查理斯韦

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python处理数据常见问题解决方案（2）Dataframe使用 append()添加大量数据时效率变低，处理时间过长，无法接受。

问题描述：在用python给dataframe添加数据的过程中，我们经常使用append()方法往dataframe中一行一行的添加数据。但是当数据过多时，append()方法效率变得地下。近期笔者需要处理350,000行的数据，需要对其中的每一行做处理，组装成新的一行，再使用append()把新组装的一行添加至新的dataframe。在MacBook上用Pycharm运行了8个小时，只append()了约110,000行，这个速度是无法接受的。所以需要找到一种更快的组装dataframe的方法。解决
复制链接

扫一扫