pandas的切片loc方法特别慢、特别慢

今天在用pandas时,发现切片loc好慢!

事情是这样的…
需求:我有一个excel表,70多万行。我需要根据early_age、late_age两个字段的大小(419<=late_age<=early_age<=458)为条件,提取所有的数据,然后存入另一个excel,生成一个小的数据集。
刚开始写的代码如下:

data = pd.read_excel(r'D:\xxx.xlsx')  # 764544行
end_data = pd.DataFrame(columns=data.columns.values)
indx = 0
for i in range(len(data)):
    if i%10000==0:
        print(i)
    early_age = float(data['early_age'][i:i+1].values)
    late_age = float(data['late_age'][i:i+1].values)
    if pd.isnull(early_age) or pd.isnull(late_age):
        continue
    if (419 <= late_age) and (early_age <= 485):
        end_data.loc[indx] = data[i:i+1].values.flatten().tolist()
        indx += 1

痛苦的是,TMD从下午运行到了晚上,还是没跑完。。。。。。
终于,我又仔细地研究了代码,看究竟哪里跑的慢,
于是有了下面的代码:

data = pd.read_excel(r'D:\xxx.xlsx')  # 764544行
def get_idx_lis(data):
    lis = []
    for i in range(len(data)):
        if i%10000==0:
            print(i)
        early_age = float(data['early_age'][i:i+1].values)
        late_age = float(data['late_age'][i:i+1].values)
        if pd.isnull(early_age) or pd.isnull(late_age):
            continue
        if (419 <= late_age) and (early_age <= 485):
            lis.append(i)	# !!!!
    return lis
idx_lis = get_idx_lis(data)   # 98152行
def get_data_rows(lis):
    data_rows = []
    for i in range(len(lis)):
        if i%10000==0:
            print(i)
        data_rows.append(data[lis[i]:lis[i]+1].values.flatten().tolist())
    return data_rows
data_row = get_data_rows(idx_lis)
end_data = pd.DataFrame(data=data_row, columns=data.columns.values)
end_data.to_excel(r'D:\hhhh.xlsx')

上面两个代码的区别就在于:
代码1:

end_data.loc[indx] = data[i:i+1].values.flatten().tolist()

代码2:

lis.append(i)
end_data = pd.DataFrame(data=data_row, columns=data.columns.values)

结论:数据量大时 ,loc特别慢。。。
解决方法:

  1. 如果直接生成新的DataFrame,可以按照上面的方法,先将数据放入列表,然后创建DataFrame对象时直接赋值data。
  2. 如果要在已有的DataFrame1对象添加很多新的行,可以使用上述方法将新的数据放入一个DataFrame2,然后拼接DataFrame1和DataFrame2。
  3. 还有一个更简单的方法,用于条件筛选:
end_data= data[(419<=data['late_age']) & (data['early_age']<=485)]	# 一行代码解决   哭了。。。。

拼接的代码:

# 1. 采用append方法合并两个dataframe
# 构造两个dataframe
df1 = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
# 合并  ignore_index设置为 True可以重新排列索引
df1.append(df2, ignore_index=True)
   A  B
0  1  2
1  3  4
2  5  6
3  7  8
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值