1.类型系统
使用任何一门程序设计语言编写程序,总是要考虑两个方面的内容——数据+算法。这里的数据部分的实现,主要包含两方面,一方面是需要用合理的方式抽象表达一些基础的、原子性的数据,另一方面是提供一种机制,从简单的、基础的数据组合、衍生出更加复杂多样的数据的机制。在lua中,这些原子性的数据就是诸如number, boolean一类的数组类型,而组合数据的机制就是Table。下面的内容就来分析如何实现这样一套表达数据的系统。
1.1 用统一的方式表示数据
lua中存在多种数据类型,下面是在lua.h里定义的各种数据类型,可以看到用boolean,number,string等等,区分它们可以用一个整数类型id来表示,下面一共只用到8,也就是最大4个二进制位,其实,对于有些类型,还需要区分更细的类型,例如number类型,既有可能是是一个整数,也有可能是一个浮点数,这就需要进一步区分他们,区分的办法也很简单,在LUA_TNUMBER的基础上,在高位继续添加二进制位来进行区分就可以了。
在脚本语言中,一个变量可以取任何可能的数据类型,这就要求能够把这些不同类型的数据用一种统一的方式表达,这样就可以在变量之间任意赋值。
#define LUA_TNIL 0
#define LUA_TBOOLEAN 1
#define LUA_TLIGHTUSERDATA 2
#define LUA_TNUMBER 3
#define LUA_TSTRING 4
#define LUA_TTABLE 5
#define LUA_TFUNCTION 6
#define LUA_TUSERDATA 7
#define LUA_TTHREAD 8
lua.h中定义的类型id
/* Variant tags for strings */
#define LUA_TSHRSTR (LUA_TSTRING | (0 << 4)) /* short strings */
#define LUA_TLNGSTR (LUA_TSTRING | (1 << 4)) /* long strings */
具体区分更细的类型,长短字符串,lobject.h
在下面的实现中,大量使用到了C语言中的union,这个特性在平时编程的时候可能很少用到,但是这个技巧在处理以下情况时十分有用:一块内存可能对应不同类型,还有就是方便指针访问多种对象起始部分相同的那部分数据。
union将A,B,C三种对象用一种类型表达出来,他们都包含base部分,只需要通过union的指针就可以访问base,不管是A,B还是C,只不过要注意A,B,C三种类型大小应当差不多大,否则浪费内存。
如下图,GCObject表示可垃圾回收的所有数据类型,第一行的GCHeader表示垃圾回收相关的信息,而后面的每一种类型都对应一种垃圾回收的类型。第一行的GCHeader的作用就是为了访问这一组数据类型头部共享的那一部分数据。例如Table类型,他的头部一定就是和GCHeader相匹配的,这样通过GCObject*访问gch就可以方便地访问到Table类型种的GCHeader(事实上是叫CommonHeader的一个宏,不太重要的区别这里忽略)。GCObject的另一个作用就是将一组关联的类型统一用一种类型来表示,具体需要处理具体的变量时,还需要一个变量来指示他具体的类型。
union GCObject {
GCheader gch;
union TString ts;
union U