pandas的切片loc方法特别慢、特别慢

最新推荐文章于 2023-12-29 19:29:02 发布

Yes ，I can ！

最新推荐文章于 2023-12-29 19:29:02 发布

阅读量2.2k

点赞数

分类专栏： Python语言文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/qq_43473753/article/details/121846330

版权

Python语言专栏收录该内容

1 篇文章 0 订阅

订阅专栏

今天在用pandas时，发现切片loc好慢！

事情是这样的…
需求：我有一个excel表，70多万行。我需要根据early_age、late_age两个字段的大小（419<=late_age<=early_age<=458）为条件，提取所有的数据，然后存入另一个excel，生成一个小的数据集。
刚开始写的代码如下：

data = pd.read_excel(r'D:\xxx.xlsx')  # 764544行
end_data = pd.DataFrame(columns=data.columns.values)
indx = 0
for i in range(len(data)):
    if i%10000==0:
        print(i)
    early_age = float(data['early_age'][i:i+1].values)
    late_age = float(data['late_age'][i:i+1].values)
    if pd.isnull(early_age) or pd.isnull(late_age):
        continue
    if (419 <= late_age) and (early_age <= 485):
        end_data.loc[indx] = data[i:i+1].values.flatten().tolist()
        indx += 1

痛苦的是，TMD从下午运行到了晚上，还是没跑完。。。。。。
终于，我又仔细地研究了代码，看究竟哪里跑的慢，
于是有了下面的代码：

data = pd.read_excel(r'D:\xxx.xlsx')  # 764544行
def get_idx_lis(data):
    lis = []
    for i in range(len(data)):
        if i%10000==0:
            print(i)
        early_age = float(data['early_age'][i:i+1].values)
        late_age = float(data['late_age'][i:i+1].values)
        if pd.isnull(early_age) or pd.isnull(late_age):
            continue
        if (419 <= late_age) and (early_age <= 485):
            lis.append(i)	# !!!!
    return lis
idx_lis = get_idx_lis(data)   # 98152行
def get_data_rows(lis):
    data_rows = []
    for i in range(len(lis)):
        if i%10000==0:
            print(i)
        data_rows.append(data[lis[i]:lis[i]+1].values.flatten().tolist())
    return data_rows
data_row = get_data_rows(idx_lis)
end_data = pd.DataFrame(data=data_row, columns=data.columns.values)
end_data.to_excel(r'D:\hhhh.xlsx')

上面两个代码的区别就在于：
代码1：

end_data.loc[indx] = data[i:i+1].values.flatten().tolist()

代码2：

lis.append(i)
end_data = pd.DataFrame(data=data_row, columns=data.columns.values)

结论：数据量大时，loc特别慢。。。
解决方法：

如果直接生成新的DataFrame，可以按照上面的方法，先将数据放入列表，然后创建DataFrame对象时直接赋值data。
如果要在已有的DataFrame1对象添加很多新的行，可以使用上述方法将新的数据放入一个DataFrame2，然后拼接DataFrame1和DataFrame2。
还有一个更简单的方法，用于条件筛选：

end_data= data[(419<=data['late_age']) & (data['early_age']<=485)]	# 一行代码解决   哭了。。。。

拼接的代码：

# 1. 采用append方法合并两个dataframe
# 构造两个dataframe
df1 = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
# 合并  ignore_index设置为 True可以重新排列索引
df1.append(df2, ignore_index=True)
   A  B
0  1  2
1  3  4
2  5  6
3  7  8

Yes ，I can ！

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
pandas的切片loc方法特别慢、特别慢

今天在用pandas时，发现切片loc好慢！事情是这样的…需求：我有一个excel表，70多万行。我需要根据early_age、late_age两个字段的大小（419<=late_age<=early_age<=458）为条件，提取所有的数据，然后存入另一个excel，生成一个小的数据集。刚开始写的代码如下：data = pd.read_excel(r'D:\xxx.xlsx') # 764544行end_data = pd.DataFrame(columns=data.col
复制链接

扫一扫

专栏目录