python add函数_python – 更快地替代pandas中的Series.add函数

最新推荐文章于 2023-12-28 13:41:55 发布

weixin_39575758

最新推荐文章于 2023-12-28 13:41:55 发布

阅读量125

点赞数

文章标签： python add函数

我想把两个大熊猫系列加在一起.第一个系列非常大,有一个MultiIndex.第二个系列的索引是第一个系列索引的一小部分.

df1 = pd.DataFrame(np.ones((1000,5000)),dtype=int).stack()

df1 = pd.DataFrame(df1, columns = ['total'])

df2 = pd.concat([df1.iloc[50:55],df1.iloc[2000:2005]]) # df2 is tiny subset of df1

使用常规的Series.add函数第一次需要大约9秒,后续尝试需要2秒(可能是因为pandas优化了df在内存中的存储方式？).

starttime = time.time()

df1.total.add(df2.total,fill_value=0).sum()

print "Method 1 took %f seconds" % (time.time() - starttime)

手动迭代行大约是Series.add第一次的2/3,并且在后续尝试时大约是Series.add的1/100.

starttime = time.time()

result = df1.total.copy()

for row_index, row in df2.iterrows():

result[row_index] += row

print "Method 2 took %f seconds" % (time.time() - starttime)

当(如此处)索引是MultiIndex时,速度差异尤其明显.

为什么Series.add在这里不能正常工作？有什么建议加快这个？迭代系列的每个元素是否有更有效的替代方法？

另外,如何对数据框进行排序或构造以提高任一方法的性能？第二次运行这些方法中的任何一个都要快得多.我如何第一次获得这种表现？使用sort_index进行排序只能有所帮助.

weixin_39575758

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python add函数_python – 更快地替代pandas中的Series.add函数

我想把两个大熊猫系列加在一起.第一个系列非常大,有一个MultiIndex.第二个系列的索引是第一个系列索引的一小部分.df1 = pd.DataFrame(np.ones((1000,5000)),dtype=int).stack()df1 = pd.DataFrame(df1, columns = ['total'])df2 = pd.concat([df1.iloc[50:55],df1.i...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。