《编程珠玑》第二章的三个问题

最新推荐文章于 2024-10-11 12:01:25 发布

info_H

最新推荐文章于 2024-10-11 12:01:25 发布

阅读量191

点赞数

分类专栏：算法刷题文章标签：算法

本文链接：https://blog.csdn.net/H_idea/article/details/113727883

版权

算法刷题专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文详细探讨了《编程珠玑》第二章的三个经典问题：如何找出不在文件中的32位整数，如何实现循环左移，以及如何寻找变位词。通过深入分析和比较不同解法，阐述了在资源有限情况下优化算法的重要性，同时分析了各方法的时间复杂度和效率。

摘要由CSDN通过智能技术生成

2.1 三个问题

A. 找出不在文件中的32位整数

初始想法

当内存足够时可以直接在内存中维护位向量，有对应位是否为1表示是否出现了对应整数。当内存只有几百字节时可以考虑将位向量分段，每次读一遍顺序文件正确设置对应位，位向量的每个段都存入外部文件。

经典解法

提出的第一种解法实际上超出了题目要求的范围，因为仔细读题目会发现只是要找出一个不在给定文件中的32位整数，而不需要找出所有，可以用二分查找的思想快速解决这个问题，每次给定一个缺少一个整数的范围都寻找合适的分割方法将包含一个缺失整数的范围缩小，再在缩小的范围内继续查找，直到范围足够小使得这个范围内的整数都可以放入内存中，然后就是用位向量方法找出缺失整数。

// 以下方法针对32位无符号整数，如果是一般整数就需要先用0分割
mask = 1 << 31
while cnt > 5
	for each num in inputfile // 根据输入文件中数字的最高位为0还是1放入不同的输出文件
		if num & mask
			cnt1++
			write num to outfile1
		else
			cnt2++
			write num to outfile2
	mask >> 1 //逻辑右移一位 
	inputfile = cnt1 < cnt2 ? outfile1: outfile2
	cnt = cnt1 < cnt2 ? cnt1: cnt2
// 根据位向量找出缺失整数，难在确定当前范围，之后得到当前范围的位向量即可
mask = mask-1
if any num in inputfile bigger than mask
	 range = [mask+1, mask+1 | mask]
else
	range = [0, mask]

B. 循环左移

在只有几十字节内存的情况下，实现循环左移i位的经典方法有三种

a. 链式移位

1. 初始想法

假设原向量为a，循环左移前后元素的索引具有以下对应关系：

0	1	…	i-1	i	i+1	…	n-1
n-i	n-i+1	…	n-1	0	1	…	n-i-1

上面的对应关系可以翻译成：原向量的a[k]将变为左移后向量的a[(k+n-i)%n]，这样写不够优美，可以借助模的性质改写为a[(k-i)%n]。以n=10,i=3为例，转移关系为x[0]<-x[3]<-x[6]<-x[9]<-x[2]<-x[5]<-x[8]<-x[1]<-x[4]<-x[7]<-x[0]，这可以看成是转移链，也就是这个方法被我称为链式移位的原因。
伪码如下：

prev = a[i]
k = 0
do
	temp = a[k]
	a[k] = prev
	k = (k+i) % n
	prev = temp
while k > 0

2. 完善后

但是无法确定是不是所有元素都在一条转移链上，实际上所有向量项可以分为d条转移链，其中d为n,i的最大公约数，这些链的代表元素为a[0],a[1],...,a[d-1]，对上面伪码修改如下：

for t from 0 to d-1
	k = t
	prev = a[k+i]
	do
		temp = a[k]
		a[k] = prev
		k = (k+i) % n
		prev = temp
	while k != t

为什么链的代表元素为a[0],a[1],...,a[d-1]？

b. 递归

待循环左移的数组ab，根据a,b的大小分为以下两种情况

b的大小比a大，将b分为b_l,b_r两部分，也就是ab_lb_r，将a与b_r交换得到b_rb_la，这时a已经放到了合适的位置上，考虑子数组b_rb_l，只需要将该子数组循环左移i位，末尾拼接上a就可以得到原数组循环左移i位的结果。
b的大小比a小，将a写为a_la_r，其中 $a_l|=|b|，长度相等$ ，将b与a_l交换，得到ba_ra_l，只要把a_ra_l循环左移 $i - ∣ b ∣$ 位就可以得到ba_la_r，也就是原数组循环左移i位的结果。

伪码如下：

shift(v, bg, i, n) //将数组v[bg...bg+n-1]循环左移i位
	if i == 0 || n == 0
		return
	if i < n-i
		swap(v[bg...bg+i-1], v[bg+n-i...bg+n-1])
		shift(v, bg, i, n-i)
	else
		swap(v[bg...bg+i-1], v[bg+n-i...bg+n-1])
		shift(v,bg+i, i-(n-i), n-(n-i))
	return

简单分析

分析递归的时间复杂度关注的是递归层数与每层开销，也可以使用聚合分析，分析每个元素到达数组中合适位置需要多少次移动。
考虑情况1，交换后得到b_rb_la，a部分的每个元素到达这个位置涉及3次移动（交换需要3次移动），且这部分的元素之后不会再改动位置。同样的分析可以用于情况2，交换后得到ba_ra_l，b部分每个元素到达这个位置涉及3次移动（交换需要3次移动），且这部分的元素之后不会再改动位置。因此每个元素要达到最终的位置都只需要3次移动的开销，整个递归的复杂度为 $O (n)$ 。