Node.js模块系统的实现机制简析

北极象

于 2022-12-16 18:31:47 发布

阅读量736

点赞数 2

分类专栏：前端 C/C++ 文章标签： node.js javascript C

本文链接：https://blog.csdn.net/jgku/article/details/128346460

版权

前端同时被 2 个专栏收录

44 篇文章 5 订阅

订阅专栏

C/C++

5 篇文章 0 订阅

订阅专栏

nodejs模块系统简介

Node.js(简称Node)的模块系统非常灵活，除了提供内置的功能模块，还提供良好的扩展能力，使开发者可以编写多种多样的外置模块，这种扩展能力也极大丰富了Node的整个开发者生态。从总体上看，Node就是根植JavaScript语言并设计和实现了一系列库函数的集合，这些库函数根据问题域的不同划分到不同的模块中。因此，深入理解Node模块系统的工作原理对于理解Node的整体运行机制非常有帮助。本文立足于Node内置模块，剖析Node的模块体系以及工作原理。这对于理解外置的模块也同样具有借鉴意义。

Node的内置模块可以分成两类：C++版的native模块和JavaScript版的native模块(没错，Node内部对应的类名就叫做NativeModule)，这里的native特指内置于libnode.so(Linux系统，下同)中的模块。这两类模块的组织结构不太相同，本文分别进行分析。

C++版native模块的定义和加载

C++版native模块特指采用C++语言开发，内置在libnode.so中的子模块，一共有超过20个C++版的native模块(本节除非特殊说明，一律简称native模块)，其编程模式与标准Node Addon的编程模式基本相同，只是没有生成独立的Addon文件，而是采用十分巧妙的方式，将这么多的native模块一起编译到libnode.so模块中。libnode.so充当容器，承载这些native模块，各个模块之间彼此隔离互不影响，并且独立加载，效果与独立的Addon文件几乎一样。因此我们也把这些native模块组成的体系称为Node的微模块系统(Micro native system)，简图如下所示：

如何定义
可以参考标准的Node Addon的实现方法，基本代码结构是一致的。以最常用的fs模块为例，其主体代码如下：

// node_file.cc
static void Open(const FunctionCallbackInfo<Value>& args) {
    ...
    int err = uv_fs_open(path, mode);
    args.GetReturnValue().Set(err);
}
 
void InitFs(Local<Object> target, ...) {
    Environment* env = Environment::GetCurrent(context);
    env->SetMethod(target, "open", Open);
    env->SetMethod(target, "read", Read);
    ...
}
NODE_MODULE_CONTEXT_AWARE_BUILTIN(fs, node::InitFs)

这与标准Node Addon的唯一区别是最后的宏，这里通过NODE_MODULE_CONTEXT_AWARE_BUILTIN这个宏将fs模块定义为Node的微模块系统的一部分。而源文件node_file.cc则通过node.gyp的编译脚本将其编译到libnode.so中。

为了理解Node的微模块系统，我们可以分析宏NODE_MODULE_CONTEXT_AWARE_BUILTIN的定义。从这个宏出发顺藤摸瓜，梳理清楚整个微模块系统的体系结构。这个宏的定义如下：

struct node_module {
  int nm_version;
  unsigned int nm_flags;
  void* nm_dso_handle;
  const char* nm_filename;
  node::addon_register_func nm_register_func;
  node::addon_context_register_func nm_context_register_func;
  const char* nm_modname;
  void* nm_priv;
  struct node_module* nm_link;
};
 
#define NODE_MODULE_CONTEXT_AWARE_X(modname, regfunc, priv, flags) \ extern "C" { \ static node::node_module _module = \ { \ NODE_MODULE_VERSION, \ flags, \ NULL, \ __FILE__, \ NULL, \ (node::addon_context_register_func) (regfunc), \ NODE_STRINGIFY(modname), \ priv, \ NULL \ }; \ NODE_C_CTOR(_register_ ## modname) { \ node_module_register(&_module); \ } \ }
 
#define NODE_MODULE_CONTEXT_AWARE_BUILTIN(modname, regfunc) \ NODE_MODULE_CONTEXT_AWARE_X(modname, regfunc, NULL, NM_F_BUILTIN) \

从上述定义不难发现Node维护了一个全局的单向链表用于保存所有注册到微模块系统中的native模块。链表的节点类型是node_module，因此当我们调用NODE_MODULE_CONTEXT_AWARE_BUILTIN(fs, node::InitFs)时，会创建代表fs模块的node_module对象，并将成员变量nm_filename设置为"fs"，将成员变量nm_context_register_func设置成fs模块的初始化函数InitFS。然后调用注册函数node_module_register()将该对象插入到全局链表的队首，注册代码如下所示：

// node.cc
static node_module* modlist_builtin;
extern "C" void node_module_register(void* m) {
    struct node_module* mp = reinterpret_cast<struct node_module*>(m);
    mp->nm_link = modlist_builtin;
    modlist_builtin = mp;
}

这里的全局静态变量modlist_builtin就是链表的首节点，通过这个变量可以遍历所有注册到微模块系统中的native模块。所有native模块在源文件的最后全都调用宏NODE_MODULE_CONTEXT_AWARE_BUILTIN完成注册工作。

特别指出native模块的注册时机，通过上面的代码分析发现，Node通过宏NODE_C_CTOR将注册函数声明为constructor类型的函数，这意味着该注册函数在libnode.so加载阶段被自动调用。这样可以保证所有native模块都可以在启动阶段完成自动注册。以fs为例，注册相关的宏展开后的完整代码如下：

// 属性constructor可以确保_register_fs()在libnode.so加载阶段被调用。
void _register_fs() attribute((constructor));
void _register_fs() {
node_module_register(&fsMod);
}
通过以上技术手段，当libnode.so模块加载完成之后，所有的native模块全部串联起来，并保存到modlist_builtin链表中。整个链表的结构如下图所示：

加载过程

Native模块的注册只是告诉Node存在这样一个native模块，而并没有真正加载该native模块。真正的加载native模块必须要调用注册时传入的初始化函数(比如fs的InitFS函数)。理解注册和加载的区别十分重要，这样才能弄清楚Node内部如何使用native模块。那么究竟何时真正加载native模块呢？

Node采用”懒加载“的策略：只有在第一次使用某个模块时(通过调用require方法)，才真正加载对应的模块，这时才正式调用初始化函数。以fs模块为例，在客户第一次调用require(‘fs’)时，才会执行注册的初始化函数，完成该native模块的加载。

下面以fs模块为例剖析require(‘fs’)的整个过程，讲解Node如何加载native模块，并把功能开放到JavaScript的世界的。

JavaScript接口层

大部分C++版native模块都有对应的JavaScript接口层(也就是下一节介绍的JavaScript版native模块)，接口层是对native模块的简单封装。以fs模块为例，当开发者调用require(‘fs’)时，首先会加载名称为"fs.js"的接口文件，后者会利用binding的机制访问对应的C++版native模块。代码示例如下：

// fs.js
const binding = process.binding('fs');
exports.open = function(path, flags, mode, callback_) {
    ...
    binding.open(path, flags, mode, req);
};

fs.js是典型的JavaScript版native模块，通过exports变量对外开放接口，而接口的实现则代理给对应的C++版native模块。其中最关键的一步是如何绑定这两种native模块，这个功能则由万能的process.binding()工具方法实现。

万能的binding机制

Binding机制实现在全局对象process的binding函数中，其主要功能是根据JavaScript模块名查询C++版native模块对象，并把后者通过exports机制开放给JavaScript世界，实现"绑定"目的。

为了做到C++版native模块的懒加载，binding方法采用了cache机制，在cache中保存所有已加载的C++版native模块的接口对象。具体做法是在每次调用"绑定"函数时根据JavaScript模块名优先从cache中查找，如果找到则直接返回缓存的接口对象，如果没有找到，则遍历微模块系统的modlist_builtin链表，找到已经注册了的native模块对象，然后调用初始化函数nm_context_register_func。完成正式的加载工作。最后把native模块的接口对象保存到cache中并将其返回出来。主要代码如下所示:

// node.cc
// process.binding()会调用到该函数。
static void Binding(const FunctionCallbackInfo<Value>& args) {
    Environment* env = Environment::GetCurrent(args);
    Local<String> module = args[0]->ToString(env->isolate()); // 模块名
    node::Utf8Value module_v(env->isolate(), module);
    Local<Object> cache = env->binding_cache_object();
    // 从cache中查找接口对象，如果找到，直接返回
    Local<Object> exports;
    if (cache->Has(env->context(), module).FromJust()) {
        exports = cache->Get(module)->ToObject(env->isolate());
        args.GetReturnValue().Set(exports);
        return;
    }
    // cache没有则从modlist_builtin链表中查找
    node_module* mod = get_builtin_module(*module_v);
    if (mod != nullptr) {
        // 找到内置Native模块，调用初始化函数，完成模块加载
        exports = Object::New(env->isolate());
        Local<Value> unused = Undefined(env->isolate());
        mod->nm_context_register_func(exports, unused, env->context(), mod->nm_priv);
        // 把接口对象加入cache中，下次再"绑定"时可以直接返回
        cache->Set(module, exports);
    }
    // 返回接口对象
    args.GetReturnValue().Set(exports);
}

JavaScript版native模块的定义和加载

上一节介绍的native模块特指用C++编写的模块。在Node中，除了C++编写的native模块，还有一种是用JavaScript编写的native模块。无论哪种语言编写的native模块，除了编程语言的差别，本质没有太大的区别，首先两者都是Node原生(builtin)模块库的一部分，其次都采用了懒加载的机制。而编程语言上的差异主要表现在两个方面：1)，在模块的组织上，C++版的native模块以全局单向链表的形式将模块保存在Node的微模块系统中。而JavaScript版的native模块则相对简单的多，直接把native模块保存在JavaScript的map结构中，map中每个元素的key为模块的ID，也是调用者调用require函数时传入的参数(比如fs，console，vm等)，而value则是具体的JavaScript版native模块对象。2)，在层次结构上，JavaScript版native模块充当接口层，而C++版native模块则为实现层，前者是后者的封装，负责把用户的调用意图传递给后者。后者则调用操作系统的功能，完成具体的功能实现。

JavaScript版native模块之所以称为native模块，主要原因是这些模块都会在Node的编译阶段借助工具将JavaScript的源码转换成C++字符串，并直接编译到libnode.so中。这个过程称为JavaScript版native模块的打包，借助的技术被称为js2c。打包到libnode.so中的好处是，当用户调用require请求某个JavaScript版native模块时，不需要再从外部文件读入具体的JavaScript源码，而是直接从内存中(libnode.so中)载入经过转换的C++字符串形式的JavaScript源码，然后再进行即时编译和执行。在加载效率上明显提高很多。此外在转换阶段还可以将所有JavaScript源码做合并及混淆处理，这在效率和安全性方面都有一定的好处。

接下来首先介绍精巧的转换技术：js2c。

js2c技术

当你打开Node的源文件"node_javascript.cc"时，可能会发现这个文件包含了一个神秘的头文件"node_natives.h"，并使用了其中的全局变量"natives"，但你翻遍整个代码库也找不到这个头文件和这个全局变量。带着疑惑进一步扩大搜索范围，终于在"node.gyp"文件中找到了线索，关键的几处代码如下:

// node.gyp
{
'target_name': 'node_js2c',
'actions': [{
  'action_name': 'node_js2c',
  'inputs': [
    '<@(library_files)',
    './config.gypi',
  ],
  'outputs': [
    '<(SHARED_INTERMEDIATE_DIR)/node_natives.h',
  ],
'action': [
    '<(python)',
    'tools/js2c.py',
    '<@(_outputs)',
    '<@(_inputs)',
]}}

这段编译脚本的意思是调用"tools/js2c.py"工具，将"@(library_files)“指示的所有JavaScript文件合并及转换成C++的头文件，转换之后的C++头文件名称是"node_natives.h”。注意这里说的转换不是编译，仅仅是简单的"搬运"：将JavaScript的源文件内容"搬运"到C++的头文件"node_natives.h"中，JavaScript源码作为C++字符串的形式保存在全局变量"natives"数组中。进一步研究"js2c.py"的实现，可以分析出"node_natives.h"的完整定义，关键代码示例如下：

// node_natives.h
namespace node {
struct _native {
  const char* name;
  const char* source;
  size_t source_len;
};
 
static const struct _native natives[] = {
  {"assert", "<content-of-assert.js", sizeof(<content-of-assert.js>), // assert module
  {"fs", "<content-of-fs.js>", sizeof(<content-of-fs.js>), // fs module
  ...
  { NULL, NULL, 0 }
};

natives数组以"{NULL, NULL, 0}“结尾，方便数组的遍历，其元素类型是”_native"结构体，由三部分组成：“name"表示该模块的ID，调用者在调用require时传入的参数需要和name的值一致，所以在加载这类native模块时只需要传入模块名即可，在模块名之后加上”.js"的后缀反而是错误的，比如"require(‘fs.js’)"是错误的。"source"则是原始JavaScript转换成C++字符串之后的内容。"source_len"表示具体内容的大小。

借助js2c工具，lib目录下的几乎所有的JavaScript文件全部打包到libnode.so中。具体哪些文件被打包可以参考node.gyp中"library_files"的定义。

NativeModule的工作原理

这里直接引用Node内部类名NativeModule特指JavaScript版native模块。

与C++版native模块类似，JavaScript版native模块的加载也遵循两个原则: 1)，在Node启动阶段将所有的NativeModule对象缓存到map中，建立模块名到JavaScript代码的映射，但不真正加载模块。2)，采用“懒加载”机制，只有当用户调用"require"请求指定模块时才到map中查找到NativeModule对象并执行真正编译工作，完成加载。以下分别阐述这两个阶段。

Node启动时构造NativeModule对象，完成name到source的映射

Node的JavaScript世界的初始化代码实现在"node.js"文件中，并在Node启动阶段执行。该文件定义了"NativeModule"类用以表示JavaScript版native模块的信息，其定义如下：

// node.js
function NativeModule(id) {
  this.filename = id + '.js';
  this.id = id;    // 没有js后缀
  this.exports = {};
  this.loaded = false;
}

注意其成员变量exports是导出的接口对象，其初始值为空。在Node初始化阶段借助binding机制，载入js2c阶段生成的"natives"对象，保存到NativeModule的类变量_source中，关键代码如下：

NativeModule._source = process.binding(‘natives’);
该调用返回的是map对象，其中key是模块的name，而value是具体的JavaScript源码。具体的实现在node_javascript.cc文件中，关键代码如下：

// node_javascript.cc
#include "node_natives.h"
void DefineJavaScript(Environment* env, Local<Object> target) {
  ...
  for (int i = 0; natives[i].name; i++) {
    ...
    Local<String> name = String::NewFromUtf8(env->isolate(), natives[i].name);
    Local<String> source = String::NewFromUtf8(env->isolate(), natives[i].source,String::kNormalString,natives[i].source_len);
    target->Set(name, source);
  }
}

总而言之，在Node启动结束时，所有的JavaScript版native模块的源码都缓存在"NativeModule._source"这个map中，而在require指定模块之前，NativeModule.exports均为空(表示它们全都没有真正加载)。

懒加载机制

如上所述，Node的native模块不论C++版还是JavaScript版都采用懒加载机制：只有在调用require时才会真正加载指定的模块。具体的说，对于JavaScript版native模块而言，加载的含义是编译并执行JavaScript源码。完整的加载过程定义在NativeModule的require函数中，简单解释如下：

NativeModule.require = function(id) {
  ...
  // 首先从缓存中查找是非存在exports对象，如果有则直接返回
  var cached = NativeModule.getCached(id);
  if (cached) {
    return cached.exports;
  }
 
  // 如果require的模块名称不在NativeModule到map对象中，则抛异常
  if (!NativeModule.exists(id)) {
    throw new Error('No such native module ' + id);
  }
 
  process.moduleLoadList.push('NativeModule ' + id);
 
  // 懒加载开始
  var nativeModule = new NativeModule(id);
  nativeModule.cache();
  // 关键的一环节：编译
  nativeModule.compile();
  return nativeModule.exports;
};

关键代码在compile函数中:

NativeModule.prototype.compile = function() {
  var source = NativeModule.getSource(this.id);
  source = NativeModule.wrap(source);
 
  var fn = runInThisContext(source, {
    filename: this.filename,
    lineOffset: 0,
    displayErrors: true
  });
  fn(this.exports, NativeModule.require, this, this.filename);
 
  this.loaded = true;
};

在compile函数中，首先根据id从NativeModule._source中读取对应模块的源码。然后按照Node的标准做法对模块的源码进行包装，举例说明，如果模块的原始内容是:

exports.foo = function() {
  return 'Hello World';
};

那么包装之后的内容变换成:

(function (exports, require, module, __filename, __dirname) {
  exports.foo = function() {
    return 'Hello World';
  };
});

包装之后立即调用"runInThisContext"函数，该函数借助V8引擎，即时对包装后的源码进行编译和执行，执行后返回的结果是一个function对象(即上述的包装函数)。最后调用该函数，传入正确的参数列表，这些参数也正是我们编写JavaScript模块时可以直接引用到变量(比如exports等)，通常模块内部实现会把需要开放的对象或函数挂在"exports"对象(又称接口对象)上。这样外面调用者就可以直接调用exports下面的变量或函数。这也正是JavaScript模块开放接口的工作原理。

总结

本文重点介绍了Node的内置模块的组织结构以及加载机制。Node的内置模块分成C++版native模块和JavaScript版native模块，实现机制上有一定的区别。因此将两种模块分开介绍和剖析，希望对读者深入理解Node的模块机制有所帮助。而开发者在利用Node的扩展机制开发外置模块时也可以内置模块的原理和机制。