随机数生成问题分类以及题目汇总

最新推荐文章于 2023-07-17 21:01:59 发布

caigen1988

最新推荐文章于 2023-07-17 21:01:59 发布

阅读量2k

点赞数

分类专栏：数据结构与算法 C/C++ 文章标签：算法 random iterator 编程

本文链接：https://blog.csdn.net/caigen1988/article/details/7699314

版权

最近在看关于随机数的生成问题。计算机程序设计艺术（第二卷第三章）以及编程珠玑（第12章）上都有讨论。就结合这两本书总结下。这里主要讲三个算法分别是

1.选择抽样算法

2.水库抽样算法

3.洗牌算法

1. 选择抽样算法：

问题描述：从含有N个记录的一个文件中等概率的随机选取n个记录。

思路：如第一个记录以n/N的概率被选中，果我们已经在前t个记录中选择了m个项目，则对第t+1个记录应以概率（n-m）/(N-t)加以选择(也就是说在剩余的N-t个记录中选择n-m个记录。每个记录被选取的概率应为（n-m）/(N-t)）算法看似不合理，其实已经证明是正确的，详见计算机程序设计艺术

算法（选择抽样技术）：从N个记录的一个集合中随机的选择n个记录，其中0<n≤N 。

S1.[初始化] 置t =0, m=0 (在本算法中m表示已经选择的记录数，而t表示我们已经处理过的输入记录的总数)

S2.[生车U] 生成在0到1之间一致的分布的随机数U

S3 [检验] 如果（N-t）U ≥n-m 则转到步骤S5

S4 [选择] 把下一个记录作为样本，m和t加1.如果m < n ,则转到步骤S2；否则抽样完成，算法终止

S5 [跳] 跳过下一个记录（不把它选为样本），t 加1，并转到步骤S2

举例：

实现：输出0到n-1（包含0和n-1）个范围内的m个随机整数的有序列表，不允许重复。(注意编号是从0开始，编号从1开始类似)

void genKnuth(int m, int n)

{

for(int i = 0; i < n; i++)

{

if(bigrand() % n-i < m) //相当于前面算法描述中S3: 在程序运行时，if条件成立的情况是 bigrand()%n-i 的结果为0 到m-1 共m //个。概率为 m/n-i 说明：我们亦可以把if(bigrand()%n-i < m) 写为 M = random(1, n-i) if M < m........

{

cout << i << "\n";

m--;

}

为了方便理解，我们贴出伪代码：

select = m

remaining = n

for i = [0, n)

if(bigrand() % remaining) < select

print i

select--

remaining-- // 相当于S5中t加1 也就是剩余的减1

另附算法：

上述算法的运行时间与n成正比，如果n很大的话会比较耗时。使用下面改进算法可以在一定程度上减少运行时间

void gensets(int m, int n)

{

set<int> S;

while(S.size() < m)

{

S.insert(bigrand()%n);

}

set<int>::iterator i ;

for(i = S.begin(); i != S.end(); ++i)

cout << *i <<endl;

}

当m相对于n较小时完整程序需要O(mlogm)时间（插入算法耗时O(logm),遍历算法O(m))。此算法的缺点是m如果很大的话程序空间开销会比较大（用set保存m）

2. 水库抽样算法

问题描述：从确切大小未知但是大于等于n个一个文件中等概率随机选择n个记录（也就是说N未知的情况下随机选择n个记录）。

思路：用一个称作“水库”的辅助文件存放有作为最后抽样的候选者的所有记录。下面算法使用具有不同索引 I[j] 的一张表，其中

1 ≤ j ≤ n ,每个索引指向水库的一个记录。当把K个记录放入水库后，以后对扫描到的K+i 到N个记录每个记录都以K/K+i 的概率随机替换水库中的记录

算法（水库抽样）：

R1.[初始化] 输入前n个记录，并把它们复制到水库中。对于1 ≤ j ≤ n 置I[j] = j ,并置t = m = n（如果抽样文件少于n个记录，有必要中断

算法并报告失败。在算法运行期间，索引 I[1],....,I[n]指向当前抽样中的记录； m是水库的大小， t是迄今为止已经处理过的输入记录数）

R2.[文件结束？] 如果无记录输入，则转到步骤R6

R3[生成并检验] t增1，然后生成1和t（含t）之间的一个随机数M。如果M> n 则转到R5

R4[加入到水库中] 复制输入文件下一个记录到水库中，m赠1并置I[M] = m (以前由I[M]指示的记录现在在抽样中又新的记录代替)转到R2

R5[跳] 跳过输入文件的下一个记录（不把它包含在水库中），并且返回步骤R2

R6[第二次扫描] 对 I表的项进行排序使得I[1] < ..... < I[n]; 然后扫描水库，并把具有这些索引的记录复制到保存最后抽样的输出文件中

举例：

实现：输出1到n（包含1和n）个范围内的m个随机整数的有序列表，不允许重复。

Init : a reservoir with the size： k
for i= k+1 to N
M=random(1, i);
if( M ≤ k) // 注：网上大多数算法都写成 M < K 那应该是不正确的。此句对应步骤R3 。M <= K 的概率为 K/i
SWAP(I[M], I[i])
end for

3.洗牌算法

// 相当于有n！个选择。第一个索引位置有n中选择。第二个索引位置有n-1个选择（即random(2,n)）以此类推.............

for i:=1 to n do swap(a[i], a[random(i,n)]); // 注意加粗的是i不是1

此算法的详细描述可以参见：http://bbs.bccn.net/thread-331122-1-1.html 与http://topic.csdn.net/u/20120221/14/4eb5fad8-618d-41d1-8ac6-cb6999d4fc57.html

题目1：（来自：http://blog.csdn.net/hackbuteer1/article/details/7486704）
已知有个rand7()的函数，返回1到7随机自然数，让利用这个rand7()构造rand10() 随机1~10。
分析：要保证rand10()在整数1-10的均匀分布，可以构造一个1-10*n的均匀分布的随机整数区间（n为任何正整数）。假设x是这个1-10*n区间上的一个随机整数，那么x%10+1就是均匀分布在1-10区间上的整数。由于(rand7()-1)*7+rand7()可以构造出均匀分布在1-49的随机数（原因见下面的说明），可以将41～49这样的随机数剔除掉，得到的数1-40仍然是均匀分布在1-40的，这是因为每个数都可以看成一个独立事件。
下面说明为什么(rand7()-1)*7+rand7()可以构造出均匀分布在1-49的随机数:
首先rand7()-1得到一个离散整数集合{0，1，2，3，4，5，6}，其中每个整数的出现概率都是1/7。那么(rand7()-1)*7得到一个离散整数集合A={0，7，14，21，28，35，42}，其中每个整数的出现概率也都是1/7。而rand7()得到的集合B={1，2，3，4，5，6，7}中每个整数出现的概率也是1/7。显然集合A和B中任何两个元素组合可以与1-49之间的一个整数一一对应，也就是说1-49之间的任何一个数，可以唯一确定A和B中两个元素的一种组合方式，反过来也成立。由于A和B中元素可以看成是独立事件，根据独立事件的概率公式P(AB)=P(A)P(B)，得到每个组合的概率是1/7*1/7=1/49。因此(rand7()-1)*7+rand7()生成的整数均匀分布在1-49之间，每个数的概率都是1/49。（注：集合A每个元素之间差7个连续数字，将 rand7 得到的1-7 放到空隙正好是连续的整数1-49.每个数字出现的概率相同）
程序：

[cpp]view plaincopy 
   
 int rand_10()  
 {  
     int x = 0;  
     do  
 

最低0.47元/天解锁文章

caigen1988

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
随机数生成问题分类以及题目汇总

最近在看关于随机数的生成问题。计算机程序设计艺术（第二卷第三章）以及编程珠玑（第12章）上都有讨论。就结合这两本书总结下。这里主要讲三个算法分别是1.选择抽样算法2.水库抽样算法3.洗牌算法1. 选择抽样算法：问题描述：从含有N个记录的一个文件中等概率的随机选取n个记录。思路：如第一个记录以n/N的概率被选中，果我们已经在前t个记录中选择了m个项目，则对第t+1个记
复制链接

扫一扫