python中random.sample()方法可以随机地从指定列表中提取出N个不同的元素,但在实践中发现,当N的值比较大的时候,该方法执行速度很慢,一般N>1万 ,则速度较慢。解决方案:
numpy 的random模块中的choice方法可以有效提升随机提取的效率:
需要注意的是,需要置replace为False,即抽取的元素不能重复,默认为True。
True的话, 有可能会出现重复的,因为前面的抽的放回去了。
============时间对比差距如下:==============
==================详解如下=========================================
numpy.random.choice()函数:从给定的1维数组中随机采样的函数。
numpy库的,所以一般会import numpy as np ,np.random.choice(x,x,x)
numpy.random.choice(a, size=None, replace=True, p=None)
a : 如果是一维数组,就表示从这个一维数组中随机采样;
如果是int型,就表示从0到a-1这个序列中随机采样。
size : 采样结果的数量,默认为1.可以是整数,表示要采样的数量;也可以为tuple,如(m, n, k),则要采样的数量为m * n * k,size为(m, n, k)。
replace : boolean型,采样的样本是否要更换?这个地方我不太理解,测了一下发现replace指定为True时,采样的元素会有重复;当replace指定为False时,采样不会重复。
p : 一个一维数组,制定了a中每个元素采样的概率,若为默认的None,则a中每个元素被采样的概率相同。
===============================================================
例子
从大小为3的np.arange(5)生成一个均匀的随机样本:
>>> np.random.choice(5, 3)
输出:([0, 3, 4])
从大小为3的np.arange(5)生成一个均匀的随机样本,没有替换(结果不会重复):
>>> np.random.choice(5, 3, replace=False)
([3,1,0])
原文:https://blog.csdn.net/qq_25436597/article/details/79815800
原文:https://blog.csdn.net/sunnyyan/article/details/83410233