一、报错ValueError: Sample larger than population or is negative
场景
在运行这行代码进行随机采样的时候,报错了
tr_sample = random.sample(all_sd_trs, n)
原因
上面的用法通常没有任何问题,也不会出现任何的错误。然而当random.sample()中的第二个参数大于列表population的元素个数,就会报错。
random.sample(list, num): 多个字符中生成指定数量的随机list,random.sample(),有两个参数,
- 一个为被选取字符串list
- 一个为选取的长度num,选择的长度num 必须<= len(list)
这主要是因为random.sample()这个方法采取的抽样策略是不重复采样(不放回采样,采一个少一个,采一个少一个,如果第二个参数大于列表的元素个数,就会导致后面没法采),所以指定的第二个参数不能超过population列表元素的个数,否则就会报错。
解决方法
由于你希望指定的第二个参数是大于列表的元素个数的,因为这个时候采样的话肯定是重复采样(采了一个放回去)。目测比较好的解决方案是numpy中的choice()方法。具体的使用方式如下:
import numpy as np
population = [1, 2, 3, 20, 99]
part = np.random.choice(population, 6)
print(part)
此时输出如下:
[ 3 20 1 2 2 1]