一、问题描述
关于python自带的库函数random.sample(),用它来进行随机采样有时候真是很方便。平时,我会经常这样使用它:
import random
population = [1, 2, 3, 20, 99]
part = random.sample(population, 2)
print(part)
上面的用法通常没有任何问题,也不会出现任何的错误。然而当random.sample()中的第二个参数大于列表population的元素个数5时,即
import random
population = [1, 2, 3, 20, 99]
part = random.sample(population, 6)
print(part)
就会出现以下的错误:
ValueError: Sample larger than population or is negative
这主要是因为random.sample()这个方法采取的抽样策略是不重复采样(不放回采样,采一个少一个,采一个少一个,如果第二个参数大于列表的元素个数,就会导致后面没法采),所以指定的第二个参数不能超过population列表元素的个数,否则就会报错。
二、解决方案
由于你希望指定的第二个参数是大于列表的元素个数的,因为这个时候采样的话肯定是重复采样(采了一个放回去)。目测比较好的解决方案是numpy中的choice()方法。具体的使用方式如下:
import numpy as np
population = [1, 2, 3, 20, 99]
part = np.random.choice(population, 6)
print(part)
此时输出如下:
[ 3 20 1 2 2 1]