1.前言
测试数据中,需要用到随机数据,同时要求数据不能重复。所以最终想到了洗牌的方式来生成测试数据,也就是大名鼎鼎的shuffle算法。
2.相关知识
2.1 算法描述
考虑了不需要额外地申请空间,所以需要再数组内部进行调整。
for i=1 to n do swap( a[i], a[random(i,n)] );
2.2 数学证明
数学归纳法证明,随机数据为平均分布:
- 当n=1时,所以元素arr[0]在任何一个位置的概率为1/1,命题成立;
- 假设当n=k时,命题成立,即原数组中任何一个元素在任何一个位置的概率为1/k;
- 则当n=k+1时,当算法执行完k次时,前k个元素在前k个位置的概率均为1/k;
- 当执行最后一步时,前k个元素中任何一个元素被替换到第k+1位置的概率为:(1-1/(k+1)) * 1/k = 1/(k+1);
- 在前面k个位置任何一个位置的概率为(1-1/(k+1)) * 1/k = 1/(k+1);
- 对于第k+1个元素,其在原位置的概率为1/k+1,在前k个位置任何一个位置的概率为:(1-k /(k+1)) * (1/k) = 1/(k+1);
- 所以对于第k+1个元素,其在整个数组前k+1个位置上的概率也均为1/k+1;
综上所述,对于任意n,只要按照方案中的方法,即可满足每个元素在任何一个位置出现的概率均为1/n。
3.实现
基础数组申请:
static inline u32 *
__integer_array_alloc(u32 min, u32 max)
{
u32 ix = 0;
u32 *parry = NULL;
size_t nmemb = max - min + 1;
parry = (u32 *)malloc(nmemb * sizeof(u32));
if (!parry) {
return NULL;