python pandas rename_python – Pandas：dropna之后的inplace rename的特...

最新推荐文章于 2020-12-21 11:56:12 发布

weixin_39581964

最新推荐文章于 2020-12-21 11:56:12 发布

阅读量211

点赞数

文章标签： python pandas rename

我在pandas issues报告了这个问题.

与此同时,我发布此处希望节省其他时间,以防他们遇到类似的问题.

在分析需要优化的进程时,我发现重命名列不在适当位置可以提高x120的性能(执行时间).

分析表明这与垃圾收集有关(见下文).

此外,通过避免使用dropna方法来恢复预期的性能.

以下简短示例演示了因子x12：

import pandas as pd

import numpy as np

就地=真

%%timeit

np.random.seed(0)

r,c = (7,3)

t = np.random.rand(r)

df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)

indx = np.random.choice(range(r),r/3, replace=False)

t[indx] = np.random.rand(len(indx))

df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)

df = (df1-df2).dropna()

## inplace rename:

df.rename(columns={col:'d{}'.format(col) for col in df.columns}, inplace=True)

100 loops, best of 3: 15.6 ms per loop

%% prun的第一个输出行：

ncalls tottime percall cumtime percall filename:lineno(function)

06002

就地=假

%%timeit

np.random.seed(0)

r,c = (7,3)

t = np.random.rand(r)

df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)

indx = np.random.choice(range(r),r/3, replace=False)

t[indx] = np.random.rand(len(indx))

df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)

df = (df1-df2).dropna()

## avoid inplace:

df = df.rename(columns={col:'d{}'.format(col) for col in df.columns})

1000 loops, best of 3: 1.24 ms per loop

避免拉网

通过避免使用dropna方法恢复预期的性能：

%%timeit

np.random.seed(0)

r,c = (7,3)

t = np.random.rand(r)

df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)

indx = np.random.choice(range(r),r/3, replace=False)

t[indx] = np.random.rand(len(indx))

df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)

#no dropna:

df = (df1-df2)#.dropna()

## inplace rename:

df.rename(columns={col:'d{}'.format(col) for col in df.columns}, inplace=True)

1000 loops, best of 3: 865 ?s per loop

%%timeit

np.random.seed(0)

r,c = (7,3)

t = np.random.rand(r)

df1 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)

indx = np.random.choice(range(r),r/3, replace=False)

t[indx] = np.random.rand(len(indx))

df2 = pd.DataFrame(np.random.rand(r,c), columns=range(c), index=t)

## no dropna

df = (df1-df2)#.dropna()

## avoid inplace:

df = df.rename(columns={col:'d{}'.format(col) for col in df.columns})

1000 loops, best of 3: 902 ?s per loop

weixin_39581964

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python pandas rename_python – Pandas：dropna之后的inplace rename的特...

我在pandas issues报告了这个问题.与此同时,我发布此处希望节省其他时间,以防他们遇到类似的问题.在分析需要优化的进程时,我发现重命名列不在适当位置可以提高x120的性能(执行时间).分析表明这与垃圾收集有关(见下文).此外,通过避免使用dropna方法来恢复预期的性能.以下简短示例演示了因子x12：import pandas as pdimport numpy as np就地=真%%t...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。