最近在做xgboost分类的时候需要用到shuffle来打乱数据,但是遇到的问题是数据量太大所造成的当shuffle数据时程序会卡死,所以,我就先把pandas数据进行shuffle,然后再转换成numpy型数据:
pua_data = np.array(shuffle(pua_data))
后来在使用shuffle时用了np中的shuffle,造成的结果就是把数据全丢失了,当时用的是np.random.shuffle函数,用sklearn中的shuffle就可以解决,这个库里的shuffle可以对pandas以及numpy都可以进行操作:
from sklearn.utils import shuffle