C编译器剖析_2.4 C语言的类型系统

最新推荐文章于 2020-12-20 00:33:30 发布

SheIsC

最新推荐文章于 2020-12-20 00:33:30 发布

阅读量2k

点赞数 1

分类专栏： C编译器剖析文章标签： c语言编译器类型系统

本文链接：https://blog.csdn.net/SheIsC/article/details/43199987

版权

C编译器剖析专栏收录该内容

63 篇文章 64 订阅

订阅专栏

2.4 C语言的类型系统

这一节，我们准备初步讨论一下C语言的类型系统，相关的代码主要在ucl\type.c和ucl\type.h中。我们知道，一个进程的地址空间可分为代码区和数据区。

对于数据区，C语言提供了char、short、int、long、float和double等基本类型来刻画基本的操作数。char、short、int和long等整型还进一步分有unsigned和signed，对大多数编译器而言，缺省时，整型默认为signed。当然也有C编译器默认char为unsigned char。C标准对基本类型要占多大内存空间，并没有规定得非常死。比如，在一些面向16位单片机的C编译器中，int就只占2个字节；而在32位机器上，int一般占4个字节。这些基本类型，就如最基本的化学元素一样，按照一定的组合规则，就可以构成更复杂的物质，最终构成了纷繁的大千世界。在C语言中，指针、数组和结构体等概念，就相当于是化学元素的组合规则，通过这些概念，C程序员可以描述更加复杂的数据。

C语言通过引入“函数”的概念，刻画了代码区，对C程序员而言，要访问代码区的函数代码时，我们需要知道这段代码的首地址、函数参数和返回值这样的信息，函数名实际上就代表了这段代码的首地址，这些信息可用C语言的函数声明来表达，如下所示。

int f(int,int);

int g(int,int);

如果忽略掉函数名，则函数f和函数g拥用相同的特征，同样的参数类型和同样的返回值类型。我们可以说函数f和函数g的类型是一样的。把“指针”这样的组合规则作用到“函数”上，我们就有了“函数指针 pointer to function”的概念，由此，我们可以把函数的首地址也当作一种数据来处理；而函数的参数和返回值，实际上表达了代码区要如何访问数据区。因为整数和浮点数等基本类型相当于基本的化学元素，而指针、结构体、数组和函数等组合规则是在这些基本类型之上衍生出来的，所以我们称这些类型为衍生类型（derived type）。如果把基本类型看成是操作数，把这些组合规则看成是类型运算符，则C程序员通过函数或变量的声明，实际上构建了类型表达式，来告诉C编译器我们要如何访问代码区和数据区。

在UCC编译器内部，我们需要建立相应的数据结构来刻画基本类型和衍生类型。UCC编译器是用C语言来实现的，很自然的，我们就会用结构体来描述相关类型信息。图2.4.1中的代码来源于ucl\type.h，为了表述方便，删去了原有的一些注释。

图2.4.1 struct type

我们通过图2.4.1第17行的struct type来描述类型信息，而数组类型需要记录更多的信息，我们就用第22行的struct arrayType。可以看到，这两种结构体的开始部分都是TYPE_COMMON，我们在第1章时介绍过，这相当于struct arrayType继承了struct type。而宏定义TYPE_COMMON如图第10至15行所示，第11行的categ用来记录类别，取值范围由第2至第6行的枚举常量来定义。例如CHAR对应的是char，而UCHAR对应的是unsigned char。第12行的qual用来记录类型声明时，是否有添加const或volatile等限定符(qualifier)，其取值范围由第8行的枚举常量CONST和VOLATILE来指示。第12行的align表示是按多少字节进行对齐的，而第13行的size则记录该类型要占多少个字节。如果是衍生类型，第15行的bty用于指向其基类。

我们举以下几个具体的例子来说明。通过ucl\type.c中的函数ArrayOf()、PointerTo()和Qualify()，我们可以在基本类型int的基础上构造如图2.4.2所示的类型结构。结合图2.4.2，不难理解这几个函数的源代码，这里就不展开讨论。

int a;

const int b;

int c[4];

int * d;

图2.4.2 类型结构

由图2.4.2，我们可以知道数组c的类型由4个int构成，共占16字节，按4字节进行对齐，属于ARRAY类别；而指针d属于POINTER类别，占4字节。接下来我们再来看一下如何描述结构体类别，如图2.4.3所示。

图2.4.3 结构体的类型描述

我们仍然结合一个例子来说明。通过ucl\type.c的StartRecord()、AddField()和EndRecord()等函数，我们会为以下结构体struct Data构造一个形如图2.4.4的类型结构。

struct Data{

         int abc:8;

         int def:24;

         double f;

} dt;

图2.4.4 结构体的类型结构

在图2.4.4中，recordType中记录了结构体struct Data类型的大小为16字节，其类别为STRUCT，按8字节进行对齐，其中的flds指针指向由struct field对象构成的链表。每个struct field对象描述了结构体中的一个数据域成员，tail指针相当于指向链尾的struct field对象。对于位域成员，在struct field的bits记录了其所占用的位数，UCC使用一个int或者unsigned int来存放位域成员，而pos则记录了位域在一个整数中的起始位置。例如，在结构体struct Data中，成员abc和def都是位域，abc占8个bit，而def占24个bit，它们一共占了32位的空间，即4字节。UCC编译器为struct Data对象dt构造的内存布局如图2.4.5所示。由于在UCC对double类型按8字节进行对齐，所以在偏移offset为4开始的4个字节实际上没有放置任何数据。位域abc和def都处于偏移0字节处，但它们的pos信息是不一样的；而双精度浮点数f位于偏移8字节处，占用了8字节的内存空间。整个dt对象共占16字节。不同C编译器采取的对齐策略是不一样的，所产生的对象内存布局会有所不同。

图2.4.5 struct Data对象dt的内存布局

接下来，我们来看一下UCC的类型系统是如何描述“函数”的，如图2.4.6所示。

图2.4.6 函数的类型描述

图2.4.6的第159行的functionType描述了与函数相关的类型信息，TYPE_COMMON中的bty记录了函数返回值的类型信息，而第162行的sig则记录了参数列表的类型信息。C语言函数分为旧式风格old-style或者新式风格new-style，如图2.4.7所示的f1和f2实际上就是旧式风格;而f3和f4为对应的新式风格函数。由图2.4.7的第17至22行可知，旧式风格的函数甚至连实参的个数都不进行检查；由第23至28行可知，新式风格的函数会对参数进行检查，这也是图2.4.6第154行的hasProto的含义，hasProto是”has prototype”的意思，换言之，参数列表成为函数接口的一部分。作为C程序员，应尽量不去使用旧式风格的函数定义或声明，毕竟，因为历史上使用旧式风格的函数引起了不少问题，我们才会引入类型检查更严格的新式风格函数。但是作为C编译器，却需要背上这个历史的包袱，新旧风格都需要去支持。而图2.4.6第155行的hasEllipsis则用于判断新式风格的函数中是否存在变参，ellipsis是省略号的意思，在C语言中printf就是一个最典型的变参函数，其函数接口如下所示。

int printf(const char *format, ...);

图2.4.7 旧式风格和新式风格

图2.4.8给出了图2.4.7的代码上机运行后的结果，我们给出了GCC、UCC和Clang三者的对比。Clang编译器给出的提示信息确实是最具可懂性的。在UCC编译器的警告和错误提示上，我们有时有意去模仿Clang或者GCC。

图2.4.8 新旧风格函数运行结果

接下来，我们就以如下所示的函数f5为例。通过ucl\type.c中的FunctionReturn()等函数，我们为之构造一个如图2.4.9所示的类型结构。

int f5(double a,float b)；

图2.4.9 函数的类型结构

在图2.4.9中，结构体struct parameter描述了函数的某个参数的相关信息，id为形参的名字，ty为形参的类型，而reg表示形参声明时是否有register这样的说明符，该说明符只是建议C编译器把形参尽量放到寄存器中。而structsignature则描述了参数形表的相关信息，hasProto为1时，表示是新式风格的函数，此时params域指向一个向量，该向量包含多个struct parameter对象。

通过这一节的图2.4.2、图2.4.4和图2.4.9，我们对UCC编译器是如何刻画C语言的数组、结构体和函数等类型信息会有一个非常直观的感觉。UCC编译器会在语法分析和语义检查时进行这些类型结构的构建，我们会在后续章节再进行讨论。而int和double等基本类型的结构，在main()函数中调用SetupTypeSystem()函数来构建，如图2.4.10所示。第1259至1276行创建了所有的基本类型，指定了这些类型的大小size、对齐align和类别categ信息。第1281至1293创建了一个形如”int f();”的缺省函数类型DefaultFunctionType。

图2.4.10 SetupTypeSystem()

在C语言中，如果一个函数未经声明就直接使用，则C编译器会把这个函数的类型视为DefaultFunctionType。第1290行告诉我们这个类型的函数是旧式风格的，不对函数参数进行任何的检查。我们举一个例子来说明这会引起多让人莫名其妙的问题。

假设有两个C文件，一个文件名为b.c，其中定义了一个函数fadd，用于对两个float类型的浮点数进行加法运算；而另一个文件名为a.c，其中调用了fadd(3.0f,3.0f)。这个程序非常简单，只要学过几天C语言的人几乎都会预期这个程序的结果是6.0。

//a.c

#include <stdio.h>

int main(){

         fadd(3.0f,3.0f);

         return 0;

}

//b.c

#include <stdio.h>

void fadd(float a,float b){

         float c;

         c = a+b;

         printf("%f\n",c);

}

但上机运行后的结果竟然是2.125，这一定会让我们大吃一惊。如图2.4.11所示。再一次的，我们看到Clang至少给了我们一点警告提示，让我们知道原来a.c中对函数fadd是没有声明就直接使用。这就导致在编译单元a.c中，函数fadd沦为旧风格的函数。C编译器视fadd的类型为图2.4.10中的DefaultFunctionType。

图2.4.11 调用未声明的函数

这就是噩梦的源头。只要在a.c中加上声明” void fadd(floata,float b);”后，再调用fadd()函数，我们就得到了想要的结果6.0。下面，我们就来分析一下，为什么旧式风格的函数会带到这么怪异的问题。为了说明方便，我们把上述程序稍微修改一下，适当加了一些输出语句，如图2.4.12所示。

图2.4.12 沦为oldstyle

再次上机运行，我们会得到如图2.4.13所示结果。由图2.4.13，我们可知，float类型的浮点数3.0f在内存中对应的十六进制数值为0x40400000，而2.125f则对应0x40080000，这也正好吻合IEEE754的浮点数编码；double类型的3.0在内存中对应8个字节，内容为[ 0x00000000 0x40080000]。同时，我们发现，在b.c中，形参a的值竟然是0x00000000，形参b的值竟然是0x40080000，这就相当于是2.125f和0.0f相加，结果当然是2.125f。

图2.4.13 沦为oldstyle的运行结果

在a.c中把fadd当作旧式风格的函数时，按IT大佬们的约定，C编译器会进行一个被称为实参提升的动作。如ucl\type.c中的Promote()函数所示，凡是低于int型的其他整型，包括char和short都会被提升为int，而单精度float则会被提升为double；其他类型保持不变。

Type Promote(Type ty){

return ty->categ< INT ? T(INT) : (ty->categ == FLOAT ? T(DOUBLE) : ty);

}

C编译器面对“未声明就使用”的函数调用”fadd(3.0f,3.0f);”时，默默地进行了实参提升的操作。真正执行的函数调用是”fadd(3.0,3.0);”，压入栈的是两个double类型的浮点数3.0，共占了16字节。如图2.4.14所示。在小端机器上，浮点数3.0的存放如图所示，在低地址4字节存放了0x00000000，在高地址的4字节中存放了0x40080000。在b.c的函数fadd()中，仍然是把形参a和b当作float来处理，按照C调用约定，参数向右向左入栈，所以形参a对应的是0x00000000，形参b对应的是0x40080000。

图2.4.14 栈示意图

总之，远离旧式风格的C函数，同时记住，函数要先声明再使用，否则我们就不知不觉地在使用旧式风格的函数声明。上述例子阐述了旧式风格的函数所带来的噩梦。

SheIsC

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
C编译器剖析_2.4 C语言的类型系统

2.4 C语言的类型系统这一节，我们准备初步讨论一下C语言的类型系统，相关的代码主要在ucl\type.c和ucl\type.h中。我们知道，一个进程的地址空间可分为代码区和数据区。对于数据区，C语言提供了char、short、int、long、float和double等基本类型来刻画基本的操作数。char、short、int和long等整型还进一步分有unsigned和
复制链接

扫一扫