连环位运算技巧让程序更高效

最新推荐文章于 2024-09-18 20:33:32 发布

iCosim

最新推荐文章于 2024-09-18 20:33:32 发布

阅读量1.7k

点赞数

分类专栏：位运算高效 C++ 文章标签：算法语言优化测试 c x86

本文链接：https://blog.csdn.net/Sestall/article/details/7410924

版权

位运算同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

高效

1 篇文章 0 订阅

订阅专栏

C++

1 篇文章 0 订阅

订阅专栏

位运算，也就是逻辑运算。C语言中实用的位运算无非6种：与(&)、或(|)、非(~)、异或(^)、左移(<<)和右移(>>)。这些位运算对一般的程序员来说只是有所耳闻，真正实用的机会并不如算术运算、循环之类的操作多。当然，很多人也并没有意识到位运算的强大性能和威力。

单从性能上来说，以32位无符号整数为例，一次位运算的CPU指令的执行是加减运算的速度的一倍。在80x86下，一个逻辑运算需要2个CPU时钟周期，加减运算需要4个，而乘除则需要16个。这就很明显地体现出了其性能上的优越性。当然，原因也简单，因为CPU本身就是由与或非门这样的门电路组成的，加减乘除等其它运算的实现也是进过这样的逻辑运算来构建的，自然是直接的逻辑位运算的执行来的更直接，效率自然也就更高了。

简单来说，在C++中，我们可以用a<<=1; 来替代a*=2; 因为它们的效果是一样的——乘2，在二进制数中的表现就是在最末位多了个0，其它的位向前移了一位。当然在C++编译的时候，一般也是会把a*=2; 优化成 sal a, 1，而不是mov ax, a; mul 2;，这也能对位算的效率优越性略见一斑。自然，a<<=2就等效于a*=4，a<<=3就等效于a*=8等等。再比如对整数进行奇偶判断时也是如此，a & 1 就会比 a % 2要高效的多，两者都是在a为奇数时非零。

先几个基本的位操作：

a|=1<<n;          //置第n位为1
a&=1<<n;         //只保存第n位，其余清零
a&=~(1<<n);      //第n位清零
a^=1<<n;        //反转第n位
a &= a-1;      //对a的最低位的1清零
a |= ~(~0<<n); //置位a的最低n位

还有在一些公司的笔试题中有用位运算实现交换变量的题目：

void swap(int &a, int &b)
{
	a^=b;
	b^=a;
	a^=b;
}

上面这些还无非是一些小技巧，很浅显，谈不上高级应用，但以些为基础可以组合出一些有那么一点技术含量的。

给定一个无符号整数a，如何判断a是否为2的整数次幂。这个问题不像那种复杂算法之类的问题让人摸不着头脑，很直观地可以想象到一种方法：(log(a)/log(2.0)==long(log(a)/log(2.0)))。这真是一个朴素的想法啊！明明是整数运算，偏偏捎带上log这样的浮点数运算函数，实在是没有必要啊。因为类型转换本来就是一种不高效的做法，在加上log这样的高精度函数来拉后腿，效率肯定just so so了。刚刚说到的位运算就可以解决这一问题。2的整数次幂在二进制表示里一定会只有一个1，其余其它位全部是0。那这样就可以这样写呗

template<typename T>
bool IsPowerOfTwo(T a)
{
	int count = 0;
	for(T k = 1; k <= (1<<sizeof(a)*8); k<<=1)
		if(k & a) count++;
	return count ==1;
}

毫无疑问，这个函数对无符号数是可行的。可是这个函数“太像个函数了”，有个循环，这意味着它不能写一个inline函数。而且如果a=1，那个后面的几十次循环都是在浪费我们宝贵的时间。那可以对函数在改进一下吧？这就不必了，因为这个是徒劳的，只要有循环在，函数的效率就不可能是O(1)。看下面这个函数是不是小巧得多，也且优雅地解决了这一问题，当然还是O(1)的时间复杂度。

template<typename T>
inline bool IsPowerOfTwo(T n)	
{ return ((n&(n-1))==0);}

如果觉得不好理解，那就解释一下，如果n=0...010...0(二进制，下同)，那么n-1=0...0011...1，即原来n中1以后的0全变成了1，而n&(n-1)自然就全变为0了。当然，如果n的最后一个1前会还有1那肯定就把前面的1保存了下来，结果非零。其实质就相当于抹去n最末位的一个1。

相信这个还是比较好理解的，有了这个，我们可以再提一个问题：计算一个32位无符号整数中1的个数。利用上一个小技巧是不是马上就有了思路，并大胆的写道：

int CountBits(UDWORD bits)
{
	int count = 0;
	while(bits)
	{
		bits &= bits-1;
		count++;
	}
	return count;
}

恭喜你，你已经入道了，这已经远远比单纯的用与操作对32位遍历一遍要好得多了。可是，这还是有个循环，时间复杂度仍然是O(n)。我们来看一下面这个函数。

inline int CountBits(UDWORD bits){
	bits = bits - ((bits & 0xAAAAAAAA) >> 1);
	bits = ((bits & 0xCCCCCCCC) >> 2) + (bits & 0x33333333);
	bits = ((bits >> 4) + bits) & 0x0F0F0F0F;
	return (bits * 0x01010101) >> 24;
}

可能你会感到它异常的凶残，不过首先肯定的是其CPU计算花销周期为8*2+3*4+1*16=44，而上一个函数为 (1*2+2*4)*n=10*n，期望为160，这个算法是上个算法的1/4。而且没有循环，是O(1)时间复杂度的。那其是否可以实现，又是如何得以实现的呢？我们再来分析一下。

首先，0xAAAAAAAAA=10101010....，8个1010的循环。bits与0xAAAAAAAAA与之后只会保留bits的偶数位的1，称为tmp。tmp后移一位bits的偶数位的1就成了其低一位了。这就好，bits减一个比自己低一位的偶数位为1奇数位全为1的数tmp，其结果会怎样呢？bits偶数位为1 的下一个奇数位为1，则该偶数位不变，奇数位变零；若其奇数位为0，则偶数位变0，下一奇数位变为1。这一操作的最明显的效果就是这时的bits每两位都代表原bits的这两位有几个1。

好，再来看第二句，这句的变化最明显的就是移位变成了2。这也很好理解，既然这时的bits每两位都代表原bits的这两位有几个1，只要把它们加起来就行了，当然，操作单元也就变成了两位。0xCCCCCCCC=11001100...，8个1100的循环，0x33333333=00110011...，8个0011的循环。这就很明显了，加号前面的是为了把以2分组后为偶数组的数后移一组与奇数组对齐；加号后面是为了取出奇数组。然后，相加就可想而知了——每四位都记录着原来这四位上1的个数。

第三句同理，只不过是变成了每八位都记录着原来这八位上1的个数。

第四句很关键，目的不用说，就是为了把这四个8位上的数加在一起。如果你不是通过语意推出来的，你就不用看下面的解释了。我们来分析一下，bits乘以0x01010101，就可以有竖式表示为（设这时的bits=0x0q0w0e0r，Q、W、E、R均为四位数，之所以为四位数是因为其可表示16以内的值，而这8位中不可以超8个1，所以这时的bits只是每个字节的值都不会超过四位（3位））

0x0q0w0e0r

X 0x01010101

————————————

0x0q0w0e0r

————————————

0x------q+w+e+r--------

只思虑最高字节，其值已赫然成为q+w+e+r，抹去低24位，即是。当然，之所以最后才用乘法，不仅是效率上的考虑，还是因为在过小的组上如4位一组时，会导致低位进位冲毁高位数值。第二句之所以没有像第三句先加后与也是为了防止组间进位的发生。还有就是，C语言中无符号数溢出不会报错，所以，这个函数不会因为最后的乘法溢出而崩溃。

接下来，我们再讨论第三个问题：计算一个不比x大的最大2的整数次幂。

这个问题的话MS也可以用第一个问题的方法解呢，不过那不是高效的，因为它会用到循环，以致O(n)的时间复杂度。下面给出一个以32位无符号整数为例的只需要26个指令周期的高效算法：

inline UDWORD LargePowerOf2(UDWORD x)
{
	x |= (x >> 1);
	x |= (x >> 2);
	x |= (x >> 4);
	x |= (x >> 8);
	x |= (x >> 16);
	return (x & ~(x >> 1));
}

这个算法的思想是这样的，因为不比x大的最大2的整数次幂一定会是与x位数相同，且最高位是1，其余是0。因此，以x为1的最高位为基，按指数级向后拓，将其后的位全变以1，代码中前5句就是在做这个。之后后移一位取反与x本身相与，自然只剩下x的最高位了——也就是不比x大的最大2的整数次幂。当然，最后一句也可以写成 return (x>>1)+1; 这样的效果是相同的。

这个方法还可以用来求x的MSB、粗略估计x对2的对数等问题，只是问题的不同表示而已。

还有一个相对容易想到解法的问题：对一个32位无符号整数进行倒转。即使其最高位与最低位的值互换，次高位与次低位，依次类推。

如果进行遍历测试后置位清零，不用说，又是线性的。采用二分法，可以将时间复杂度降为O(logn)。采用二分法的常用模型，先相邻的两个位对换，再相邻的四个位对换，依次类推即可了。代码如下：

inline UDWORD ReverseBits(UDWORD n)
{
	n = ((n >>  1) & 0x55555555) | ((n <<  1) & 0xaaaaaaaa);
	n = ((n >>  2) & 0x33333333) | ((n <<  2) & 0xcccccccc);
	n = ((n >>  4) & 0x0f0f0f0f) | ((n <<  4) & 0xf0f0f0f0);
	n = ((n >>  8) & 0x00ff00ff) | ((n <<  8) & 0xff00ff00);
	n = ((n >> 16) & 0x0000ffff) | ((n << 16) & 0xffff0000);
	return n;
}

再比如，如何判断32位的无符号数所占的4个字节是否有0，这可能也好写。下面我们来对比一下两种方法的性能：

// 普通写法
BOOL HasNullByte0(udword x) 
{
	unsigned char *pByte =(unsigned char*)&x;
	return x[0] && x[1] && x[2] && x[3];
}
// 位运算写法
inline BOOL HasNullByte(udword x) 
{ return ((x + 0xfefefeff) & (~x) & 0x80808080);}

当然，普通方法也是很高效的，但其编译后的程序有3个&&运算，即需要进行3次短路求值，而且普通方法需要4次访存操作，而位运算方法可以只进行一次内存访问。具体的算法原理就不再分析了。

好，我们再来看一个综全性较强的题目：输入一个数n，输出是2的几次幂（即以2为底的对数，向下取整）；若n是0输出-1。

看类有点复杂，但其实这个问题都算不上问题，因为前面已经说过类似的题目了，无非是计算n的MSB是2的几次幂。

int Log2(UDWORD n)
{
	return n? CountBits(LargePowerOf2(n)-1): -1;
}

是不是看了有种恍然大悟的感觉呢，当然在这里，LargePowerOf2展开优化后效率会更高，但这只是简单的策略而已。其实位运算的技术并不仅限于此，这里只总结了几个不用循环的经典问题，还有很多高级的应用就不在这展示了。相信位运算能为大家的程序增光添彩、减压提速而大有裨益。

iCosim

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录