pands.qcut 太慢?使用numpy来让速度起飞
对于数据处理,一般来说,处理数独方面,pdDataFame < pd.Series < np.array
最近在使用 pd.qcut 进行数据划分方面的工作,发现速度真是的是慢的难以忍受
import numpy as np
import pandas as pd
首先构造一个 100 x 5000 的,取值范围在 [1, 100] 的DataFrame
df = pd.DataFrame(np.random.randint(1, 100, (100, 5000)))
df.head()
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 4990 | 4991 | 4992 | 4993 | 4994 | 4995 | 4996 | 4997 | 4998 | 4999 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 54 | 63 | 21 | 45 | 87 | 29 | 6 | 79 | 19 | 41 | ... | 51 | 91 | 70 | 63 | 76 | 36 | 88 | 10 | 24 | 92 |
1 | 88 | 95 | 57 | 77 | 77 | 88 | 26 | 47 | 2 | 63 | ... | 20 | 50 | 67 | 3 |