C预处理器简介

最新推荐文章于 2022-12-14 11:22:03 发布

lengye7

最新推荐文章于 2022-12-14 11:22:03 发布

阅读量1.1k

点赞数

分类专栏： C语言 C语言，文档

C语言同时被 2 个专栏收录

48 篇文章 3 订阅

订阅专栏

C语言，文档

35 篇文章 0 订阅

订阅专栏

Cpreprocesser，简称cpp，是C编译器在编译源码之前用于转换代码的宏处理器。之所以称之为宏处理器，是因为通过cpp，你可以在程序中定义和使用宏。cpp是一种文本处理工具，因此也可以用于C、C++和Objective-C之外的源码。

初始处理

cpp的作用是对输入的文件做一系列的文本处理，这些文字处理是最先进行的。理论上，预处理中的各个操作的执行是有严格的顺序，但实际上GNU的CPP将所有的操作一起执行。这些变换大体上可以分为这四个阶段：

将输入文件载入内存并分行

GNU CPP处理的是ASCII编码的字节流。GNUCPP还支持扩展的ASCII码，如ISOLatin-1和UTF-8，目前不支持非7bit的ASCII编码字符。

不同的操作系统使用不同的方式来标记行的结束。GNUCPP接受ASCII序列LF,CR, CRLF和LFCr作为换行符，但在同一个文件中要使用同一种换行符。如果文件的最后一行没有换行符，那么GNUCPP将自动为其补上换行符。

如果有三字词（trigraph），将其转为对应的单个字符

trigraph是个历史遗留问题，是为了使那些缺少一些C中字符的遗留系统使用C，目前很少使用，甚至一些编译器都不能正确地处理trigraph。trigraph共有9个，其对应关系如下图所示：

Trigraph: ??( ??) ??< ??> ??= ??/ ??' ??! ??-

   	Replacement:      [    ]    {    }    #    \    ^    |    ~

将标记为连续的多行合并为一个单行

标记为连续的多行指行末使用”/”标记的行，CPP将其删除并将下一行连接到此行。即使在”/”与换行符之间有空格，也不会有影响，标记的多行仍为标记的多行。

将所有的注释用空格代替

/*...*/和//标记的注释在此步会被CPP用空格代替。

断词(Tokenization)

在文本处理结束后，输入文件将被转化为一个词（token）序列，这些词（token）和C编译器中的词（token）大部分是对应的，但也有例外。这些词用空格分开，空格本身并不是词。

在断词的过程中如果出现多义性，那么CPP将采取贪心策略，从左侧开始尽量获得更长的词，如a+++++b将被分为a++ ++ + b。

在CPP中将输入文件断词后，除非使用##运算符，否则分词不会发生改变，如：

 #define foo() bar
     foo()baz
          ==> bar baz
     not
          ==> barbaz

尽管foo()baz中foo()和baz之间没有空格，但因为对foo()做了定义，因此CPP将其作为两个词来处理，中间使用空格分离。

预处理token可以分为这五个大类：identifiers,preprocessing numbers, string literals, punctutators和其它。下面简单介绍这五个类：

Identifiers:预处理identifier与C中的identifier是一样的，即：以下划线或字符开头，由字符、数字或下划线组成的序列。C中的预处理identifier只有一个关键字，defined。

Preprocessingnumber：与普通的数字定义不同。除C中的普通整型和浮点型常量外，还包括其它的一些表达方式。Preprocessingnumber指任何以可选的点和十进制数字开头的，包括字符、数字、下划线、点和指数的序列。指数包括这些：e+,e-,E+,E-,p+,p-,P+,andP-。预处理中的数字之所以这么定义，是想将预处理器从复杂的数定义中摆脱出来。

Stringliterals：包括字符串常量、字符常量和头文件名。头文件名有两种表达方式，分别是”...”和<...>。使用”...”，预处理器会首先在当前目录寻找相关的头文件，再去系统路径寻找，使用<...>则直接去系统目录查找头文件。

punctutators：包括所有C和C++中标点（punctutators）。ASCII中除@,$,和`这三个外，其它全部标点都是C中的标点。所有的两字符和三字符操作符都是标点，除此之外还有六个复合字符，他们的对应关系如下：

Digraph:        <%  %>  <:  :>  %:  %:%:
     	Punctuator:      {     }   [   ]   #   ##

`预处理语言（ThePreprocessing Language）`

在完成分词后，从输入文件的得到的词流（tokenstream）可以传给编译器来处理，但如果在预处理语言中定义了一些操作，那么这么操作将先于编译执行。

预处理语言由要执行的指令(directives)和要展开的宏(macros)组成。其主要功能是：

头文件的包含。#include头文件指令将被相应的头文件内容替换。
宏展开。不仅包括用户自定义的宏，还有一些系统自定义的宏。
条件编译。
行控制。
诊断。

#与##

#：字符串化

#在宏的作用是”字符串化“。宏展开操作并不在处理形如这样”...”被引起的内容，这样在””之间的宏就不会展开。#宏操作符可以解决这个问题，#的作用是在其后面宏展开后，加上””，如：

#define QUOTEME(x) #x

下面的代码：

printf("%s\n",QUOTEME(1+2));

将被展开为：

printf("%s\n", "1+2");

#在字符串化宏参数时，需要一些技巧，负责宏参数将不会被展开，如：

#define FOO bar

下面的代码：

printf("FOO=%s\n", QUOTEME(FOO));

将被展开为：

printf("FOO=%s\n", "FOO");

#经常用于输出代码所在行，如：

#define QUOTEME_(x) #x
#define QUOTEME(x) QUOTEME_(x)

现在

QUOTEME(__LINE__);

将输出：

"34"

#常被定义为CHAR，从而增强可读性，如：

#define CHAR(X)  #X[0]
使得：
printf("%c\n", CHAR(a))
printf("%c\n", CHAR(b))

输出：

a
b

##：字连接符（tokenconcatenation）

##可以在预处理阶段将两个词(token)连接起来，如：

#define MYCASE(item,id) \
case id: \
  item##_##id = id;\
break
 
switch(x) {
    MYCASE(widget,23);
}

宏展开后，MYCASE(widget,23);将得到：

case 23:
  widget_23 = 23;
break;

在使用##处理参数时，要注意增加一个转换函数，如下：

enum {
    OlderSmall = 0,
    NewerLarge = 1
};
 
#define Older Newer
#define Small Large
 
#define replace_1(Older, Small) Older##Small
#define replace_2(Older, Small) replace_1(Older, Small)
 
void printout()
{
        // replace_1(Older, Small) becomes OlderSmall (not NewerLarge),
        // despite the #define calls above.
    printf("Check 1: %d\n", replace_1(Older, Small));
 
        // The parameters to replace_2 are substituted before the call
        // to replace_1, so we get NewerLarge.
    printf("Check 2: %d\n", replace_2(Older, Small));
}

这段代码的执行结果：