[翻译&演绎]LLVM教程::我的第一个基于LLVM的语言前端::第一章::词法分析器

最新推荐文章于 2022-06-07 14:16:00 发布

「已注销」

最新推荐文章于 2022-06-07 14:16:00 发布

阅读量656

点赞数 1

分类专栏： C++ LLVM 编译原理

本文链接：https://blog.csdn.net/jazrynwong/article/details/118447072

版权

导言

这段时间LLVM这个词突然经常出现在脑海里，例如一想到做Fuzz要各种插桩，然后AFL的插桩就是用到的LLVM，代码混淆框架 OLLVM 也是基于LLVM实现的。再加上以前也经常尝试写编译器，结果经常烂尾，撸到AST完成，后面就基本撸不动了，代码也比较乱，唯一一个能跑的是个Lisp解释器。想想LLVM天生是个强大的编译器设计框架，就来劲想彻底搞个小编译器出来，简单的能弄个程序出来，就开始学习官网的例子，自己同时用Flex, Bison设计前端，肝了三四天，最后勉勉强强弄了个出来。看看官网的教程没什么中文资料，打算翻译下打发时间。

我不打算直接翻译完整原文，首先原文其实挺容易理解，另外细节上的算法参考编译原理的书籍会更合适，手撸完整前端的过程有点浪费时间，且不是很有必要，所以我打算把我结合Flex/Bison等其他工程实现的过程做个介绍。

原文地址
 我的实现::Fibol语言基于Flex/Bison/LLVM实现的编译器

第一章词法分析器

词法分析器

当我们想要实现一门语言时候，第一件需要完成的功能就是让程序有能力处理文本文件，并且理解其中内容意义。词法分析器(lexer)是一种传统的用于将输入分解成 “tokens” 的方法。词法器返回每个 “token” 的同时也潜在的携带一些元数据 (比如文本中数字所代表的数值)。首先，我们需要定义各种可能的 “token” 。

//假设保留字  def  extern 
enum Token {
  tok_eof = -1,

  // 保留字
  tok_def = -2,
  tok_extern = -3,

  // 主要数据
  tok_identifier = -4,
  tok_number = -5,
};

static std::string IdentifierStr; // Filled in if tok_identifier
static double NumVal;             // Filled in if tok_number

在完成 token 的定义后，需要为每个token定义相关的规则，注意我们的词法器最终实现效果是提供一个输入文件，每次调用词法器都会返回一个token作为输出。通俗的说，如何确定文件中字符组成的是什么token就是我们需要定义的规则(词法器严格理论请参阅编译原理教材)

例如，定义这样一条规则，如果输入文件中遇到形如"xxx"双引号内包含任意字符，就视为一个字符串 token。要实现这样的规则就可以定义这样一个状态 1，当下一个字符为"时，进入状态 2，在状态 2 下除非遇到 " 字符，否则所有字符都会被保存到内存中作为字符串token所必须的元数据的一部分。在状态 2 下遇到 " 字符进入状态 3，状态 3 返回定义好的代表字符串token值，同时返回携带的元数据。

a = getchr();
if( a == '\"'){
	while(1){
		if(getchr()

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
[翻译&演绎]LLVM教程::我的第一个基于LLVM的语言前端::第一章::词法分析器

导言这段时间LLVM这个词突然经常出现在脑海里，例如一想到做Fuzz要各种插桩，然后AFL的插桩就是用到的LLVM，代码混淆框架 OLLVM 也是基于LLVM实现的。再加上以前也经常尝试写编译器，结果经常烂尾，撸到AST完成，后面就基本撸不动了，代码也比较乱，唯一一个能跑的是个Lisp解释器。想想LLVM天生是个强大的编译器设计框架，就来劲想彻底搞个小编译器出来，简单的能弄个程序出来，就开始学习官网的例子，自己同时用Flex, Bison设计前端，肝了三四天，最后勉勉强强弄了个出来。看看官网的教程没什么中
复制链接

扫一扫