关于小话C语言集合贴，C 语言常见问题集,c语言-优化C代码常用的几招，高效程序的秘密

本文链接：https://blog.csdn.net/benpaobagzb/article/details/50789954

1～4：
前言----小话c语言(1)
printf函数，能不能简单点？----小话c语言(2)
scanf函数，想说输入不容易！----小话c语言(3)
基本输入输出，基本但不简单----小话c语言(4)
http://tieba.baidu.com/p/1699650877

5：
预处理，果然是预处理----小话c语言(5)
http://tieba.baidu.com/p/1699671617

6：
数组，也就是数据块而已----小话c语言(6)
http://tieba.baidu.com/p/1699674924

7：
指针，自然而又危险----小话c语言(7)
http://tieba.baidu.com/p/1699677781

8：
运算符，一种特殊的标识符----小话c语言(8)
http://tieba.baidu.com/p/1699679658

9：
函数，它们的分工和人类的分工没什么不同----小话C语言(9)
http://tieba.baidu.com/p/1699689740

10：
递归，到处都是递归----小话c语言(10)
http://tieba.baidu.com/p/1699695288

11：
结构体，面向对象的基础----小话c语言(11)
http://tieba.baidu.com/p/1699696963

12：
异常处理，保证代码稳定的必经之步----小话c语言(12)

http://tieba.baidu.com/p/1699700204

c语言-优化C代码常用的几招

　　在性能优化方面永远注意80-20原则，即20%的程序消耗了80%的运行时间，因而我们要改进效率，最主要是考虑改进那20%的代码。不要优化程序中开销不大的那80%，这是劳而无功的。

　　第一招：以空间换时间

　　计算机程序中最大的矛盾是空间和时间的矛盾，那么，从这个角度出发逆向思维来考虑程序的效率问题，我们就有了解决问题的第1招--以空间换时间。比如说字符串的赋值：

　　方法A：通常的办法

　　#define LEN 32

　　char string1 [LEN];

　　memset (string1,0,LEN);

　　strcpy (string1,"This is a example!!"）;

　　方法B：

　　const char string2[LEN] ="This is a example!";

　　char * cp;

　　cp = string2 ;

　　使用的时候可以直接用指针来操作。

　　从上面的例子可以看出，A和B的效率是不能比的。在同样的存储空间下，B直接使用指针就可以操作了，而A需要调用两个字符函数才能完成。B的缺点在于灵活性没有A好。在需要频繁更改一个字符串内容的时候，A具有更好的灵活性；如果采用方法B，则需要预存许多字符串，虽然占用了大量的内存，但是获得了程序执行的高效率。

　　如果系统的实时性要求很高，内存还有一些，那我推荐你使用该招数。

　　第二招：使用宏而不是函数。

　　这也是第一招的变招。函数和宏的区别就在于，宏占用了大量的空间，而函数占用了时间。大家要知道的是，函数调用是要使用系统的栈来保存数据的，如果编译器里有栈检查选项，一般在函数的头会嵌入一些汇编语句对当前栈进行检查；同时，CPU也要在函数调用时保存和恢复当前的现场，进行压栈和弹栈操作，所以，函数调用需要一些CPU时间。而宏不存在这个问题。宏仅仅作为预先写好的代码嵌入到当前程序，不会产生函数调用，所以仅仅是占用了空间，在频繁调用同一个宏的时候，该现象尤其突出。

　　举例如下：

　　方法C：

　　#define bwMCDR2_ADDRESS 4

　　#define bsMCDR2_ADDRESS 17

　　int BIT_MASK(int __bf)

　　{

　　return ((1U << (bw ## __bf)) - 1)<< (bs ## __bf);

　　}

　　void SET_BITS(int __dst,

　　int __bf, int __val)

　　{

　　__dst = ((__dst) & ~(BIT_MASK(__bf))) |

　　(((__val) << (bs ## __bf))

　　& (BIT_MASK(__bf))))

　　}

　　SET_BITS(MCDR2, MCDR2_ADDRESS,ReGISterNumber);

　　方法D：

　　#define bwMCDR2_ADDRESS 4

　　#define bsMCDR2_ADDRESS 17

　　#define bmMCDR2_ADDRESS BIT_MASK(MCDR2_ADDRESS)

　　#define BIT_MASK(__bf)

　　(((1U << (bw ## __bf)) - 1)

　　<< (bs ## __bf))

　　#define SET_BITS(__dst, __bf, __val)

　　((__dst) = ((__dst) & ~(BIT_MASK(__bf)))

　　(((__val) << (bs ## __bf))

　　& (BIT_MASK(__bf))))

　　SET_BITS(MCDR2, MCDR2_ADDRESS,

　　RegisterNumber);

　　D方法是我看到的最好的置位操作函数，是arm公司源码的一部分，在短短的三行内实现了很多功能，几乎涵盖了所有的位操作功能。C方法是其变体，其中滋味还需大家仔细体会。

第三招：数学方法解决问题

　　现在我们演绎高效C语言编写的第二招--采用数学方法来解决问题。数学是计算机之母，没有数学的依据和基础，就没有计算机的发展，所以在编写程序的时候，采用一些数学方法会对程序的执行效率有数量级的提高。举例如下，求 1~100的和。

　　方法E：

　　int I , j;

　　for (I = 1 ;I<=100; I ++）

　　{

　　j += I;

　　}

　　方法F

　　int I;

　　I = (100 * (1+100)) / 2

　　这个例子是我印象最深的一个数学用例，是我的计算机启蒙老师考我的。当时我只有小学三年级，可惜我当时不知道用公式 N×（N+1）/ 2 来解决这个问题。方法E循环了100次才解决问题，也就是说最少用了100个赋值，100个判断，200个加法（I和j）；而方法F仅仅用了1个加法，1 次乘法，1次除法。效果自然不言而喻。所以，现在我在编程序的时候，更多的是动脑筋找规律，最大限度地发挥数学的威力来提高程序运行的效率。

　　第四招：使用位操作

　　使用位操作。减少除法和取模的运算。在计算机程序中数据的位是可以操作的最小数据单位，理论上可以用"位运算"来完成所有的运算和操作。一般的位操作是用来控制硬件的，或者做数据变换使用，但是，灵活的位操作可以有效地提高程序运行的效率。举例如下：

　　方法G

　　int I,J;

　　I = 257 /8;

　　J = 456 % 32;

　　方法H

　　int I,J;

　　I = 257 >>3;

　　J = 456 - (456 >> 4 << 4);

　　在字面上好像H比G麻烦了好多，但是，仔细查看产生的汇编代码就会明白，方法G调用了基本的取模函数和除法函数，既有函数调用，还有很多汇编代码和寄存器参与运算；而方法H则仅仅是几句相关的汇编，代码更简洁，效率更高。当然，由于编译器的不同，可能效率的差距不大，但是，以我目前遇到的MS C ,arm C 来看，效率的差距还是不小。

　　对于以2的指数次方为"*"、"/"或"%"因子的数学运算，转化为移位运算"<< >>"通常可以提高算法效率。因为乘除运算指令周期通常比移位运算大。

　　C语言位运算除了可以提高运算效率外，在嵌入式系统的编程中，它的另一个最典型的应用，而且十分广泛地正在被使用着的是位间的与（&）、或（|）、非（~）操作，这跟嵌入式系统的编程特点有很大关系。我们通常要对硬件寄存器进行位设置，譬如，我们通过将AM186ER型80186处理器的中断屏蔽控制寄存器的第低6位设置为0（开中断2），最通用的做法是：

　　#define INT_I2_MASK 0x0040

　　wTemp = inword(INT_MASK);

　　outword(INT_MASK, wTemp &~INT_I2_MASK);

　　而将该位设置为1的做法是：

　　#define INT_I2_MASK 0x0040

　　wTemp = inword(INT_MASK);

　　outword(INT_MASK, wTemp | INT_I2_MASK);

　　判断该位是否为1的做法是：

　　#define INT_I2_MASK 0x0040

　　wTemp = inword(INT_MASK);

　　if(wTemp & INT_I2_MASK)

　　{

　　… /* 该位为1 */

　　}

　　运用这招需要注意的是，因为CPU的不同而产生的问题。比如说，在PC上用这招编写的程序，并在PC上调试通过，在移植到一个16位机平台上的时候，可能会产生代码隐患。所以只有在一定技术进阶的基础下才可以使用这招。

第五招：汇编嵌入

　　在熟悉汇编语言的人眼里，C语言编写的程序都是垃圾"。这种说法虽然偏激了一些，但是却有它的道理。汇编语言是效率最高的计算机语言，但是，不可能靠着它来写一个操作系统吧?所以，为了获得程序的高效率，我们只好采用变通的方法--嵌入汇编，混合编程。嵌入式C程序中主要使用在线汇编，即在C程序中直接插入_asm{ }内嵌汇编语句。

　　举例如下，将数组一赋值给数组二,要求每一字节都相符。

　　char string1[1024],string2[1024];

　　方法I

　　int I;

　　for (I =0 ;I<1024;I++)

　　*(string2 + I) = *(string1 + I)

　　方法J

　　#ifdef _PC_

　　int I;

　　for (I =0 ;I<1024;I++)

　　*(string2 + I) = *(string1 + I);

　　#else

　　#ifdef _arm_

　　__asm

　　{

　　MOV R0,string1

　　MOV R1,string2

　　MOV R2,#0

　　loop:

　　LDMIA R0!, [R3-R11]

　　STMIA R1!, [R3-R11]

　　ADD R2,R2,#8

　　CMP R2, #400

　　BNE loop

　　}

　　#endif

　　再举个例子：

　　/* 把两个输入参数的值相加，结果存放到另外一个全局变量中 */

　　int result;

　　void Add(long a, long *b)

　　{

　　_asm

　　{

　　MOV AX, a

　　MOV BX, b

　　ADD AX, [BX]

　　MOV result, AX

　　}

　　方法I是最常见的方法，使用了1024次循环；方法J则根据平台不同做了区分，在arm平台下，用嵌入汇编仅用128次循环就完成了同样的操作。这里有朋友会说，为什么不用标准的内存拷贝函数呢?这是因为在源数据里可能含有数据为0的字节，这样的话，标准库函数会提前结束而不会完成我们要求的操作。这个例程典型应用于LCD数据的拷贝过程。根据不同的CPU，熟练使用相应的嵌入汇编，可以大大提高程序执行的效率。

　　虽然是必杀技，但是如果轻易使用会付出惨重的代价。这是因为，使用了嵌入汇编，便限制了程序的可移植性，使程序在不同平台移植的过程中，卧虎藏龙，险象环生！同时该招数也与现代软件工程的思想相违背，只有在迫不得已的情况下才可以采用。

第六招，使用寄存器变量

　　当对一个变量频繁被读写时，需要反复访问内存，从而花费大量的存取时间。为此，C语言提供了一种变量，即寄存器变量。这种变量存放在CPU的寄存器中，使用时，不需要访问内存，而直接从寄存器中读写，从而提高效率。寄存器变量的说明符是register。对于循环次数较多的循环控制变量及循环体内反复使用的变量均可定义为寄存器变量，而循环计数是应用寄存器变量的最好候选者。

　　(1) 只有局部自动变量和形参才可以定义为寄存器变量。因为寄存器变量属于动态存储方式，凡需要采用静态存储方式的量都不能定义为寄存器变量，包括：模块间全局变量、模块内全局变量、局部static变量；

　　(2) register是一个"建议"型关键字，意指程序建议该变量放在寄存器中，但最终该变量可能因为条件不满足并未成为寄存器变量，而是被放在了存储器中，但编译器中并不报错（在C++语言中有另一个"建议"型关键字：inline）。

　　下面是一个采用寄存器变量的例子：

　　/* 求1+2+3+….+n的值 */

　　WORD Addition(BYTE n)

　　{

　　for(i=1;i<=n;i++)

　　{

　　s=s+i;

　　}

　　return s;

　　}

　　本程序循环n次，i和s都被频繁使用，因此可定义为寄存器变量。

　　/*www.cyuyan.com.cn*/

　　第七招：利用硬件特性

　　首先要明白CPU对各种存储器的访问速度，基本上是：

　　CPU内部RAM　>　外部同步RAM　>　外部异步RAM　>　FLASH/ROM

　　对于程序代码，已经被烧录在FLASH或ROM中，我们可以让CPU直接从其中读取代码执行，但通常这不是一个好办法，我们最好在系统启动后将FLASH或ROM中的目标代码拷贝入RAM中后再执行以提高取指令速度；

　　对于UART等设备，其内部有一定容量的接收BUFFER，我们应尽量在BUFFER被占满后再向CPU提出中断。例如计算机终端在向目标机通过RS-232传递数据时，不宜设置UART只接收到一个BYTE就向CPU提中断，从而无谓浪费中断处理时间；

　　如果对某设备能采取DMA方式读取，就采用DMA读取，DMA读取方式在读取目标中包含的存储信息较大时效率较高，其数据传输的基本单位是块，而所传输的数据是从设备直接送入内存的（或者相反）。DMA方式较之中断驱动方式，减少了CPU 对外设的干预，进一步提高了CPU与外设的并行操作程度。

高效程序的秘密_hacker's delight读书笔记

摘要：

本书用来介绍一些基于bit位的算法。充分利用计算机本身的指令，来进行高效的算法。读书笔记摘录了其中的一些算法。读书笔记中的章节跟书中的章节保持一致。

第2章. 对bit位的一些操作

2.1 操作最右侧位

1. 这里有一个基本的定理：

将字映射到字的函数可以用字并行加、减、与、或、非指令实现，当且仅当函数的结果的每一位只依赖于每个输入操作数的相应位以及相应位右侧的位。

2. 将一个字最右侧的1位改成0位

例如 0101 1000 => 0101 0000 ： x&(x-1)

3. 检测一个无符号整数是否是2^n -1的形式：

x&(x+1)

4. 析出(isolate)最右侧的1位，如果没有1位则生成所有位均为0的字

例如 0101 1000 => 0000 1000 : x&(-x)

5. 析出(isolate)最右侧的0位，如果没有0位则生成所有位均为0的字

例如 0101 0111 => 0000 1000 : ~x&(x+1) ，注意这里第一项是x按位取反

6.再举最后一个复杂一点的，其它的位操作算法就不一一列举了。可以依据定理，只要符合定理的bit操作，都可以用这种方式实现。

将最右侧连续的1改成0. 例如0101 1000 => 0100 0000

((x|(x-1))+1) & x

2.7 符号函数

符号函数的定义是：

[ -1 , x< 0 ]

sign(x) = [ 0 , x=0 ]

[ 1, x>0 ]

1. 最直观的解法是：

(x>0)-(x<0) 或(x>=0)-(x<=0)。

这种方式可以扩展到比较函数

[ -1 , x< y ]

cmp(x,y) = [ 0 , x=y ]

[ 1, x>y ]

(x>y)-(x<y) 或 (x>=y)-(x<=y)

2. 用移位指令实现

( (带符号右移)x>>31 ) |((无符号右移)-x>>31)

或者

-(x>>31) | (-x>>31) , 这里都是无符号右移，但对x=-2^31这个边界数会失败。

2.12 如何检测溢出

这里讨论的是如何不使用cpu的“溢出状态位”来检测溢出。因为有些cpu比如MIPS根本就没有这个状态位。这个对于大整数的加减和绝对值运算很重要。后面会讲基于这个方法的大整数（比如128bit, 256bit）的加减算法。

1. 带符号加法的溢出检测

x+y+c, 其中c表示进位，只能是1或者0.

溢出检测: ((x+y+c) xor x) &((x+y+c) xor y)

其结果再符号位给出，可以再其后面加入右移位31位，然后得到1或者0的值。

x-y-c, 其中c表示借位，只能是1或者0。

溢出检测：(x xor y) & ((x-y-c) xor x)

其结果再符号位给出，可以再其后面加入右移位31位，然后得到1或者0的值。

2. 借位和进位的计算

进位：(x+y+c) xor x xor y

进位：(x-y-c) xor x xor y

3. 无符号加减和乘法的溢出这里不详述。具体看书。

2.15 大数字的加减算法

设操作数是(x1,x0)和(y1,y0), 结果是(z1,z0),则大数加法：

z0=x0+y0

c=[ (x0&y0) | ((x0|y0) &~z0)]>>31 (这里计算进位)

z1=x1+y1+c

减法

z0=x0-y0

b=[ (~x0&y0) | ((x0 按位等值 y0)& z0)] >>31 (这里计算补位)

z1=x1-y1-b

这里的算法，基本上比现在网上能查到的算法效率都高。十个左右的指令可以完成。但代价就是可移植性差了。算法没有具体验证，仅仅是从书中摘录。如果需要工程使用请自行验证。

2.16 双字长移位

2.17 多字节大数的加减和绝对值计算

这两个算法不在这里叙述。可以参考书本身。

2.19 交换寄存器

这个就是两个变量互相交换并且不借助第三个变量。

c语言实现可以为：

x=x+y

y=x-y

x=x-y

用bit位操作也能实现

x=x xor y

y=y xor x

x=x xor y

第三章 2的幂边界

3.1 上舍入和下舍入到2的幂的操作

这个就是如何将一个数，如何获取离他最近（大于或者小于）的2的幂的数。

不具体叙述。看书上描述。

第五章位计数

5.1 “1”位计数

统计一个字（比如32bit）中，有多少个bit是1，有多少个bit是0。

这里以32bit为例来说明算法，这里基本思想类似折半计算。算法复杂度O(lgn)

x = (x & 0x55555555) + ((x>>1)& 0x55555555);

x = (x & 0x33333333) + ((x>>2)& 0x33333333);

x = (x & 0x0F0F0F0F) + ((x>>4)& 0x0F0F0F0F);

x = (x & 0x00FF00FF) + ((x>>8)& 0x00FF00FF);

x = (x & 0x0000FFFF) + ((x>>16)& 0x0000FFFF);

通过优化，还可以减少几个指令。具体优化就看书上介绍。但基本原理就是上面这个。

统计这种个数，这里还有一个查表的算法。就是把8bit的数，做成0-255的表。直接查数组可以算出多少个bit。这个方式在很多情况下都可以很有用。

5.2 奇偶性

统计一个数里面，bit是1的个数是奇数个还是偶数个。

具体算法见书上的说明

5.3 前导零和后缀零的计算

就是计算一个数，有多少bit是前导0，有多少bit是后缀0.

具体算法见书上说明。

第六章字搜索

6.1 搜索第一个为0的字节

这个很有用的一个功能就是找字符串的结尾字符'\0'. 传统的算法就是一个byte一个byte的去寻找是否等于0。书中给出了一个算法，对于64bit的机器，可以节省一半的指令。不具体细述。可以参考strlen的实现，看看strlen如何实现的。

6.2 寻找第一个给定长度的1位串

一般这个问题用来做压缩算法之类的有用。不细述。需要的时候再来查书。

第7章位和字节的重排列

暂时不太关心这种操作，没怎么看。

第8章乘法

第9章除法

第10章整数常量除法

这几章有个很有用的东西，就是大数的乘法和除法。128bit或者256bit大数的乘除如何高效实现。乘法有算法，但除法很麻烦。第十章就是将如何尽量避免使用除法。

具体算法也不在这里细述了。

这里可以看看，开源的加密算法，是如何实现大数的加减乘除的。书上讲的效率很高，但可移植性不好。相信开源的加密算法，对这个问题的处理，会更多考虑可移植性。

第11-16章

是一些数值计算的高效方法。不太关心。没看。

http://c-faq-chn.sourceforge.net/ccfaq/index.html

C 语言常见问题集

原著：Steve Summit

翻译：朱群英, 孙云

关于小话C语言集合贴，C 语言常见问题集,c语言-优化C代码常用的几招，高效程序的秘密_hacker's delight读书笔记

c语言-优化C代码常用的几招

高效程序的秘密_hacker's delight读书笔记

C 语言常见问题集