LLVM教程（零）

最新推荐文章于 2024-07-18 10:08:58 发布

红鲤鱼遇绿鲤鱼

最新推荐文章于 2024-07-18 10:08:58 发布

阅读量1.6k

点赞数

分类专栏： LLVM/TVM/编译理论

本文链接：https://blog.csdn.net/tengfei461807914/article/details/106976939

版权

LLVM/TVM/编译理论专栏收录该内容

10 篇文章 2 订阅

订阅专栏

文章简单翻译自LLVM totorial
原始链接

该教程需要有C++语言的编程基础，不过不需要有编译器相关的经验（要是有更好）

这里完整的介绍了一个简单的语言实现，这个教程会展示的使用LLVM生成代码的一个具体例子。

教程介绍了一个简单的语言，叫做“Kaleidoscope”，以迭代的方式在后面的几个教程章节中不断完事这个语言的构建。
这样可以让我们涵盖大量的语言设计和LLVM的技术思想，随着搭建程序的过程不断展示和实验程序，并且减少大量的细节问题。

注意：为了专注于编译器技术和LLVM，该教程不会展示一些关于软件工程的最佳实现原理。如，代码使用满天飞的全局变量，不会使用visitor设计模式等等（这个还是得看看）。

第一章 Kaleidoscope 语言 and Lexer（词法分析器）

本章会介绍我们要做什么，以及要构建的基本功能。通常lexer是构建一个语言的parser（解析器）的第一步，这里使用一个好理解的简单的C++程序实现的lexer。

原文链接

该教程以一个叫做“Kaleidoscope ”的玩具语言来展示编译器的构建过程。
Kaleidoscope 是一个过程语言，用户可以使用这个语言定义函数、使用条件判断和数学表达式等等。
通过这个教程，我们将拓展Kaleidoscope，使其可以支持if/then/else ,for循环, 用户定义运算符，使用命令行的方式进行即时编译(JIT)，debug等等功能。
为了使语言简单一些，在Kaleidoscope 语言中只支持一种数据类型，该数据类型为一个64-bit的浮点数类型。
这样所有的变量都会以双精度的形式出现，并且该语言不需要类型声明。这会使语言的语法非常简单。例如下面计算斐波那契的程序。

def fib(x)
  if x < 3 then
    1
  else
    fib(x-1)+fib(x-2)

# This expression will compute the 40th number.
fib(40)

Kaleidoscope 语言可以调用便准库函数，LLVM的JIT会使这个操作非常简单。可以使用extern关键字定义一个函数（可以互相调用和递归使用）如下面：

extern sin(arg);
extern cos(arg);
extern atan2（arg1, arg2);
atan2(sin(.4), cos(42))

更多的例子在第六章，可以写一个小型的Kaleidoscope 应用程序，如写一个Mandelbrot Set （曼德勃罗集合）。

下面进入Kaleidoscope 语言的设计阶段。

Laxer

实现一个编程语言，首先需要做的就是就是处理文本文件和识别它表达的是什么。传统办法是使用"lexer"（也叫"scanner")将输入数据拆分成"token"。每个token由lexer返回的信息包括token code和一些隐藏元信息（metadata），（例如：数字的数值）首先定义所有可能的出现。

// The lexer returns tokens [0-255] if it is an unknown character, otherwise one
// of these for known things.
enum Token {
  tok_eof = -1,

  // commands
  tok_def = -2,
  tok_extern = -3,

  // primary
  tok_identifier = -4,
  tok_number = -5,
};

static std::string IdentifierStr; // Filled in if tok_identifier
static double NumVal;             // Filled in if tok_number

每个token 由lexer 要么返回一个Token 的枚举值，要么返回一个未知字符的（如‘+’)的ascII码。如果当前的token是一个标识符，那么这个标识符字符串的全局变量会保存该标识符的名称。如果当前的token是一个数字（如1.0），NumVal会保存它的的值。为了简化实现，我们使用全局变量，但是在一个真正的语言实现程序中，这不是一个好的方法。

真正执行lexer是一个名为gettok的函数。这个函数被调用并从当前的输入信息返回下一个token。
定义如下：

/// gettok - Return the next token from standard input.
static int gettok() {
  static int LastChar = ' ';

  // Skip any whitespace.
  while (isspace(LastChar))
    LastChar = getchar();

gettok函数通过调用C语言的getchar()函数从标准的输入中读取一个字符。识别并存储这些字符直到读取到最后一个字符为止，该过程只进行读取，并不进行处理。
首先要做的事事去掉所有token之间的空格。这个过程可以通过一个循环搞定。

接下来gettok函数要做的事识别表示和特殊的关键字，比如"def"。Kaleidoscope 语言实现这些功能使用简单的循环遍历的方式实现。

if (isalpha(LastChar)) { // identifier: [a-zA-Z][a-zA-Z0-9]*
  IdentifierStr = LastChar;
  while (isalnum((LastChar = getchar())))
    IdentifierStr += LastChar;

  if (IdentifierStr == "def")
    return tok_def;
  if (IdentifierStr == "extern")
    return tok_extern;
  return tok_identifier;
}

注意，代码中将“IdentifierStr”变量设置成了全局的变量，并使用它来识别一个标识符。同样，一个语言的关键字同样由循环来进行匹配，识别数字变量也是同样的方法。

if (isdigit(LastChar) || LastChar == '.') {   // Number: [0-9.]+
  std::string NumStr;
  do {
    NumStr += LastChar;
    LastChar = getchar();
  } while (isdigit(LastChar) || LastChar == '.');

  NumVal = strtod(NumStr.c_str(), 0);
  return tok_number;
}

上面代码非常直观的处理输入信息。当读入一个数值变量时，我们使用C语言中的strtod函数将这个数值变量的字符串形式转换成数值，并粗出到NumVal中。注意，这里没有有做充分的错误检查，可能会有不正确的输入信息，比如“1.23.56.67"，会被当成”1.23"来处理（可以自己加个逻辑改正掉)

接下来处理注释信息：

if (LastChar == '#') {
  // Comment until end of line.
  do
    LastChar = getchar();
  while (LastChar != EOF && LastChar != '\n' && LastChar != '\r');

  if (LastChar != EOF)
    return gettok();
}

遇到注释信息直接跳过该行并返回下一个token。最后，如果输入没有匹配上任何一个上面的标识符或者关键字，而且也不是一个操作符字符比如"+"，又不是读到文件尾部，那么用下面的代码处理：

  // Check for end of file.  Don't eat the EOF.
  if (LastChar == EOF)
    return tok_eof;

  // Otherwise, just return the character as its ascii value.
  int ThisChar = LastChar;
  LastChar = getchar();
  return ThisChar;
}

上面的代码就是完整的Kaleidoscope语言的一个lexer，完整代码如下：

enum Token {
  tok_eof = -1,

  // commands
  tok_def = -2,
  tok_extern = -3,

  // primary
  tok_identifier = -4,
  tok_number = -5
};

static std::string IdentifierStr; // Filled in if tok_identifier
static double NumVal;             // Filled in if tok_number

/// gettok - Return the next token from standard input.
static int gettok() {
  static int LastChar = ' ';

  // Skip any whitespace.
  while (isspace(LastChar))
    LastChar = getchar();

  if (isalpha(LastChar)) { // identifier: [a-zA-Z][a-zA-Z0-9]*
    IdentifierStr = LastChar;
    while (isalnum((LastChar = getchar())))
      IdentifierStr += LastChar;

    if (IdentifierStr == "def")
      return tok_def;
    if (IdentifierStr == "extern")
      return tok_extern;
    return tok_identifier;
  }

  if (isdigit(LastChar) || LastChar == '.') { // Number: [0-9.]+
    std::string NumStr;
    do {
      NumStr += LastChar;
      LastChar = getchar();
    } while (isdigit(LastChar) || LastChar == '.');

    NumVal = strtod(NumStr.c_str(), nullptr);
    return tok_number;
  }

  if (LastChar == '#') {
    // Comment until end of line.
    do
      LastChar = getchar();
    while (LastChar != EOF && LastChar != '\n' && LastChar != '\r');

    if (LastChar != EOF)
      return gettok();
  }

  // Check for end of file.  Don't eat the EOF.
  if (LastChar == EOF)
    return tok_eof;

  // Otherwise, just return the character as its ascii value.
  int ThisChar = LastChar;
  LastChar = getchar();
  return ThisChar;
}