NodeJS基础
什么是NodeJS
JS是脚本语言,脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS,浏览器充当了解析器的角色。而对于需要独立运行的JS,NodeJS就是一个解析器。
每一种解析器都是一个运行环境,不但允许JS定义各种数据结构,进行各种计算,还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM,浏览器就提供了document
之类的内置对象。而运行在NodeJS中的JS的用途是操作磁盘文件或搭建HTTP服务器,NodeJS就相应提供了fs
、http
等内置对象。
有啥用处
尽管存在一听说可以直接运行JS文件就觉得很酷的同学,但大多数同学在接触新东西时首先关心的是有啥用处,以及能带来啥价值。
NodeJS的作者说,他创造NodeJS的目的是为了实现高性能Web服务器,他首先看重的是事件机制和异步IO模型的优越性,而不是JS。但是他需要选择一种编程语言实现他的想法,这种编程语言不能自带IO功能,并且需要能良好支持事件机制。JS没有自带IO功能,天生就用于处理浏览器中的 DOM事件,并且拥有一大群程序员,因此就成为了天然的选择。
如他所愿,NodeJS在服务端活跃起来,出现了大批基于NodeJS的Web服务。而另一方面,NodeJS让前端众如获神器,终于可以让自己的能力覆盖范围跳出浏览器窗口,更大批的前端工具如雨后春笋。
因此,对于前端而言,虽然不是人人都要拿NodeJS写一个服务器程序,但简单可至使用命令交互模式调试JS代码片段,复杂可至编写工具提升工作效率。
NodeJS生态圈正欣欣向荣。
如何安装
安装程序
NodeJS提供了一些安装程序,都可以在nodejs.org这里下载并安装。
Windows系统下,选择和系统版本匹配的.msi
后缀的安装文件。Mac OS X系统下,选择.pkg
后缀的安装文件。
编译安装
Linux系统下没有现成的安装程序可用,虽然一些发行版可以使用apt-get
之类的方式安装,但不一定能安装到最新版。因此Linux系统下一般使用以下方式编译方式安装NodeJS。
-
确保系统下g++版本在4.6以上,python版本在2.6以上。
-
从nodejs.org下载
tar.gz
后缀的NodeJS最新版源代码包并解压到某个位置。 -
进入解压到的目录,使用以下命令编译和安装。
123$ ./configure
$ make
$ sudo make install
如何运行
打开终端,键入node
进入命令交互模式,可以输入一条代码语句后立即执行并显示结果,例如:
1
2
3
|
$ node
> console.log(
'Hello World!'
);
Hello World!
|
如果要运行一大段代码的话,可以先写一个JS文件再运行。例如有以下hello.js
。
1
2
3
4
|
function
hello() {
console.log(
'Hello World!'
);
}
hello();
|
写好后在终端下键入node hello.js
运行,结果如下:
1
2
|
$ node hello.js
Hello World!
|
权限问题
在Linux系统下,使用NodeJS监听80或443端口提供HTTP(S)服务时需要root权限,有两种方式可以做到。
一种方式是使用sudo
命令运行NodeJS。例如通过以下命令运行的server.js
中有权限使用80和443端口。一般推荐这种方式,可以保证仅为有需要的JS脚本提供root权限。
1
|
$ sudo node server.js
|
另一种方式是使用chmod +s
命令让NodeJS总是以root权限运行,具体做法如下。因为这种方式让任何JS脚本都有了root权限,不太安全,因此在需要很考虑安全的系统下不推荐使用。
1
2
|
$ sudo chown root /usr/local/bin/node
$ sudo chmod +s /usr/local/bin/node
|
模块
编写稍大一点的程序时一般都会将代码模块化。在NodeJS中,一般将代码合理拆分到不同的JS文件中,每一个文件就是一个模块,而文件路径就是模块名。
在编写每个模块时,都有require
、exports
、module
三个预先定义好的变量可供使用。
require
require
函数用于在当前模块中加载和使用别的模块,传入一个模块名,返回一个模块导出对象。模块名可使用相对路径(以./
开头),或者是绝对路径(以/
或C:
之类的盘符开头)。另外,模块名中的.js
扩展名可以省略。以下是一个例子。
1
2
3
4
5
6
|
var
foo1 = require(
'./foo'
);
var
foo2 = require(
'./foo.js'
);
var
foo3 = require(
'/home/user/foo'
);
var
foo4 = require(
'/home/user/foo.js'
);
// foo1至foo4中保存的是同一个模块的导出对象。
|
另外,可以使用以下方式加载和使用一个JSON文件,模块名中.json
扩展名不可省略。
1
|
var
data = require(
'./data.json'
);
|
exports
exports
对象是当前模块的导出对象,用于导出模块公有方法和属性。别的模块通过require
函数使用当前模块时得到的就是当前模块的exports
对象。以下例子中导出了一个公有方法。
1
2
3
|
exports.hello =
function
() {
console.log(
'Hello World!'
);
};
|
module
通过module
对象可以访问到当前模块的一些相关信息,但最多的用途是替换当前模块的导出对象。例如模块导出对象默认是一个普通对象,如果想改成一个函数的话,可以使用以下方式。
1
2
3
|
module.exports =
function
() {
console.log(
'Hello World!'
);
};
|
以上代码中,模块默认导出对象被替换为一个函数。
模块初始化
一个模块中的JS代码仅在模块第一次被使用时执行一次,并在执行过程中初始化模块的导出对象。之后,缓存起来的导出对象被重复利用。
主模块
通过命令行参数传递给NodeJS以启动程序的模块被称为主模块。主模块负责调度组成整个程序的其它模块完成工作。例如通过以下命令启动程序时,main.js
就是主模块。
1
|
$ node main.js
|
完整示例
例如有以下目录。
1
2
3
4
|
- /home/user/hello/
- util/
counter.js
main.js
|
其中counter.js
内容如下:
1
2
3
4
5
6
7
|
var
i = 0;
function
count() {
return
++i;
}
exports.count = count;
|
该模块内部定义了一个私有变量i
,并在exports
对象导出了一个公有方法count
。
主模块main.js
内容如下:
1
2
3
4
5
6
|
var
counter1 = require(
'./util/counter'
);
var
counter2 = require(
'./util/counter'
);
console.log(counter1.count());
console.log(counter2.count());
console.log(counter2.count());
|
运行该程序的结果如下:
1
2
3
4
|
$ node main.js
1
2
3
|
可以看到,counter.js
并没有因为被require了两次而初始化两次。
二进制模块
虽然一般我们使用JS编写模块,但NodeJS也支持使用C/C++编写二进制模块。编译好的二进制模块除了文件扩展名是.node
外,和JS模块的使用方式相同。虽然二进制模块能使用操作系统提供的所有功能,拥有无限的潜能,但对于前端同学而言编写过于困难,并且难以跨平台使用,因此不在本教程的覆盖范围内。
小结
本章介绍了有关NodeJS的基本概念和使用方法,总结起来有以下知识点:
-
NodeJS是一个JS脚本解析器,任何操作系统下安装NodeJS本质上做的事情都是把NodeJS执行程序复制到一个目录,然后保证这个目录在系统PATH环境变量下,以便终端下可以使用
node
命令。 -
终端下直接输入
node
命令可进入命令交互模式,很适合用来测试一些JS代码片段,比如正则表达式。 -
NodeJS使用CMD模块系统,主模块作为程序入口点,所有模块在执行过程中只初始化一次。
-
除非JS模块不能满足需求,否则不要轻易使用二进制模块,否则你的用户会叫苦连天。
代码的组织和部署
有经验的C程序员在编写一个新程序时首先从make文件写起。同样的,使用NodeJS编写程序前,为了有个良好的开端,首先需要准备好代码的目录结构和部署方式,就如同修房子要先搭脚手架。本章将介绍与之相关的各种知识。
模块路径解析规则
我们已经知道,require
函数支持斜杠(/
)或盘符(C:
)开头的绝对路径,也支持./
开头的相对路径。但这两种路径在模块之间建立了强耦合关系,一旦某个模块文件的存放位置需要变更,使用该模块的其它模块的代码也需要跟着调整,变得牵一发动全身。因此,require
函数支持第三种形式的路径,写法类似于foo/bar
,并依次按照以下规则解析路径,直到找到模块位置。
-
内置模块
如果传递给
require
函数的是NodeJS内置模块名称,不做路径解析,直接返回内部模块的导出对象,例如require('fs')
。 -
node_modules目录
NodeJS定义了一个特殊的
node_modules
目录用于存放模块。例如某个模块的绝对路径是/home/user/hello.js
,在该模块中使用require('foo/bar')
方式加载模块时,则NodeJS依次尝试使用以下路径。123/home/user/node_modules/foo/bar
/home/node_modules/foo/bar
/node_modules/foo/bar
-
NODE_PATH环境变量
与PATH环境变量类似,NodeJS允许通过NODE_PATH环境变量来指定额外的模块搜索路径。NODE_PATH环境变量中包含一到多个目录路径,路径之间在*nix下使用
:
分隔,在Windows下使用;
分隔。例如定义了以下NODE_PATH环境变量:1NODE_PATH=/home/user/lib:/home/lib
当使用
require('foo/bar')
的方式加载模块时,则NodeJS依次尝试以下路径。12/home/user/lib/foo/bar
/home/lib/foo/bar
包(package)
我们已经知道了JS模块的基本单位是单个JS文件,但复杂些的模块往往由多个子模块组成。为了便于管理和使用,我们可以把由多个子模块组成的大模块称做包
,并把所有子模块放在同一个目录里。
在组成一个包的所有子模块中,需要有一个入口模块,入口模块的导出对象被作为包的导出对象。例如有以下目录结构。
1
2
3
4
5
|
- /home/user/lib/
- cat/
head.js
body.js
main.js
|
其中cat
目录定义了一个包,其中包含了3个子模块。main.js
作为入口模块,其内容如下:
1
2
3
4
5
6
7
8
9
10
|
var
head = require(
'./head'
);
var
body = require(
'./body'
);
exports.create =
function
(name) {
return
{
name: name,
head: head.create(),
body: body.create()
};
};
|
在其它模块里使用包的时候,需要加载包的入口模块。接着上例,使用require('/home/user/lib/cat/main')
能达到目的,但是入口模块名称出现在路径里看上去不是个好主意。因此我们需要做点额外的工作,让包使用起来更像是单个模块。
index.js
当模块的文件名是index.js
,加载模块时可以使用模块所在目录的路径代替模块文件路径,因此接着上例,以下两条语句等价。
1
2
|
var
cat = require(
'/home/user/lib/cat'
);
var
cat = require(
'/home/user/lib/cat/index'
);
|
这样处理后,就只需要把包目录路径传递给require
函数,感觉上整个目录被当作单个模块使用,更有整体感。
package.json
如果想自定义入口模块的文件名和存放位置,就需要在包目录下包含一个package.json
文件,并在其中指定入口模块的路径。上例中的cat
模块可以重构如下。
1
2
3
4
5
6
7
8
9
|
- /home/user/lib/
- cat/
+ doc/
- lib/
head.js
body.js
main.js
+ tests/
package.json
|
其中package.json
内容如下。
1
2
3
4
|
{
"name"
:
"cat"
,
"main"
:
"./lib/main.js"
}
|
如此一来,就同样可以使用require('/home/user/lib/cat')
的方式加载模块。NodeJS会根据包目录下的package.json
找到入口模块所在位置。
命令行程序
使用NodeJS编写的东西,要么是一个包,要么是一个命令行程序,而前者最终也会用于开发后者。因此我们在部署代码时需要一些技巧,让用户觉得自己是在使用一个命令行程序。
例如我们用NodeJS写了个程序,可以把命令行参数原样打印出来。该程序很简单,在主模块内实现了所有功能。并且写好后,我们把该程序部署在/home/user/bin/node-echo.js
这个位置。为了在任何目录下都能运行该程序,我们需要使用以下终端命令。
1
2
|
$ node /home/user/bin/node-echo.js Hello World
Hello World
|
这种使用方式看起来不怎么像是一个命令行程序,下边的才是我们期望的方式。
1
|
$ node-echo Hello World
|
*nix
在*nix系统下,我们可以把JS文件当作shell脚本来运行,从而达到上述目的,具体步骤如下:
-
在shell脚本中,可以通过
#!
注释来指定当前脚本使用的解析器。所以我们首先在node-echo.js
文件顶部增加以下一行注释,表明当前脚本使用NodeJS解析。1#! /usr/bin/env node
NodeJS会忽略掉位于JS模块首行的
#!
注释,不必担心这行注释是非法语句。 -
然后,我们使用以下命令赋予
node-echo.js
文件执行权限。1$ chmod +x /home/user/bin/node-echo.js
-
最后,我们在PATH环境变量中指定的某个目录下,例如在
/usr/local/bin
下边创建一个软链文件,文件名与我们希望使用的终端命令同名,命令如下:1$ sudo ln -s /home/user/bin/node-echo.js /usr/local/bin/node-echo
这样处理后,我们就可以在任何目录下使用node-echo
命令了。
Windows
在Windows系统下的做法完全不同,我们得靠.cmd
文件来解决问题。假设node-echo.js
存放在C:\Users\user\bin
目录,并且该目录已经添加到PATH环境变量里了。接下来需要在该目录下新建一个名为node-echo.cmd
的文件,文件内容如下:
1
|
@node
"C:\User\user\bin\node-echo.js"
%*
|
这样处理后,我们就可以在任何目录下使用node-echo
命令了。
工程目录
了解了以上知识后,现在我们可以来完整地规划一个工程目录了。以编写一个命令行程序为例,一般我们会同时提供命令行模式和API模式两种使用方式,并且我们会借助三方包来编写代码。除了代码外,一个完整的程序也应该有自己的文档和测试用例。因此,一个标准的工程目录都看起来像下边这样。
1
2
3
4
5
6
7
8
9
10
11
|
- /home/user/workspace/node-echo/
# 工程目录
- bin/
# 存放命令行相关代码
node-echo
+ doc/
# 存放文档
- lib/
# 存放API相关代码
echo.js
- node_modules/
# 存放三方包
+ argv/
+ tests/
# 存放测试用例
package.json
# 元数据文件
README.md
# 说明文件
|
其中部分文件内容如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
/* bin/node-echo */
var
argv = require(
'argv'
),
echo = require(
'../lib/echo'
);
console.log(echo(argv.join(
' '
)));
/* lib/echo.js */
module.exports =
function
(message) {
return
message;
};
/* package.json */
{
"name"
:
"node-echo"
,
"main"
:
"./lib/echo.js"
}
|
以上例子中分类存放了不同类型的文件,并通过node_moudles
目录直接使用三方包名加载模块。此外,定义了package.json
之后,node-echo
目录也可被当作一个包来使用。
NPM
NPM是随同NodeJS一起安装的包管理工具,能解决NodeJS代码部署上的很多问题,常见的使用场景有以下几种:
-
允许用户从NPM服务器下载别人编写的三方包到本地使用。
-
允许用户从NPM服务器下载并安装别人编写的命令行程序到本地使用。
-
允许用户将自己编写的包或命令行程序上传到NPM服务器供别人使用。
可以看到,NPM建立了一个NodeJS生态圈,NodeJS开发者和用户可以在里边互通有无。以下分别介绍这三种场景下怎样使用NPM。
下载三方包
需要使用三方包时,首先得知道有哪些包可用。虽然npmjs.org提供了个搜索框可以根据包名来搜索,但如果连想使用的三方包的名字都不确定的话,就请百度一下吧。知道了包名后,比如上边例子中的argv
,就可以在工程目录下打开终端,使用以下命令来下载三方包。
1
2
3
|
$ npm install argv
...
argv@0.0.2 node_modules\argv
|
下载好之后,argv
包就放在了工程目录下的node_modules
目录中,因此在代码中只需要通过require('argv')
的方式就好,无需指定三方包路径。
以上命令默认下载最新版三方包,如果想要下载指定版本的话,可以在包名后边加上@<version>
,例如通过以下命令可下载0.0.1版的argv
。
1
2
3
|
$ npm install argv@0.0.1
...
argv@0.0.1 node_modules\argv
|
如果使用到的三方包比较多,在终端下一个包一条命令地安装未免太人肉了。因此NPM对package.json
的字段做了扩展,允许在其中申明三方包依赖。因此,上边例子中的package.json
可以改写如下:
1
2
3
4
5
6
7
|
{
"name"
:
"node-echo"
,
"main"
:
"./lib/echo.js"
,
"dependencies"
: {
"argv"
:
"0.0.2"
}
}
|
这样处理后,在工程目录下就可以使用npm install
命令批量安装三方包了。更重要的是,当以后node-echo
也上传到了NPM服务器,别人下载这个包时,NPM会根据包中申明的三方包依赖自动下载进一步依赖的三方包。例如,使用npm install node-echo
命令时,NPM会自动创建以下目录结构。
1
2
3
4
5
6
7
|
- project/
- node_modules/
- node-echo/
- node_modules/
+ argv/
...
...
|
如此一来,用户只需关心自己直接使用的三方包,不需要自己去解决所有包的依赖关系。
安装命令行程序
从NPM服务上下载安装一个命令行程序的方法与三方包类似。例如上例中的node-echo
提供了命令行使用方式,只要node-echo
自己配置好了相关的package.json
字段,对于用户而言,只需要使用以下命令安装程序。
1
|
$ npm install node-echo -g
|
参数中的-g
表示全局安装,因此node-echo
会默认安装到以下位置,并且NPM会自动创建好*nix系统下需要的软链文件或Windows系统下需要的.cmd
文件。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
- /usr/local/
# *nix系统下
- lib/node_modules/
+ node-echo/
...
- bin/
node-echo
...
...
- %APPDATA%\npm\
# Windows系统下
- node_modules\
+ node-echo\
...
node-echo.cmd
...
|
发布代码
第一次使用NPM发布代码前需要注册一个账号。终端下运行npm adduser
,之后按照提示做即可。账号搞定后,接着我们需要编辑package.json
文件,加入NPM必需的字段。接着上边node-echo
的例子,package.json
里必要的字段如下。
1
2
3
4
5
6
7
8
9
10
11
|
{
"name"
:
"node-echo"
,
# 包名,在NPM服务器上须要保持唯一
"version"
:
"1.0.0"
,
# 当前版本号
"dependencies"
: {
# 三方包依赖,需要指定包名和版本号
"argv"
:
"0.0.2"
},
"main"
:
"./lib/echo.js"
,
# 入口模块位置
"bin"
: {
"node-echo"
:
"./bin/node-echo"
# 命令行程序名和主模块位置
}
}
|
之后,我们就可以在package.json
所在目录下运行npm publish
发布代码了。
版本号
使用NPM下载和发布代码时都会接触到版本号。NPM使用语义版本号来管理代码,这里简单介绍一下。
语义版本号分为X.Y.Z
三位,分别代表主版本号、次版本号和补丁版本号。当代码变更时,版本号按以下原则更新。
1
2
3
4
5
|
+ 如果只是修复bug,需要更新Z位。
+ 如果是新增了功能,但是向下兼容,需要更新Y位。
+ 如果有大变动,向下不兼容,需要更新X位。
|
版本号有了这个保证后,在申明三方包依赖时,除了可依赖于一个固定版本号外,还可依赖于某个范围的版本号。例如"argv": "0.0.x"
表示依赖于0.0.x
系列的最新版argv
。NPM支持的所有版本号范围指定方式可以查看官方文档。
灵机一点
除了本章介绍的部分外,NPM还提供了很多功能,package.json
里也有很多其它有用的字段。除了可以在npmjs.org/doc/查看官方文档外,这里再介绍一些NPM常用命令。
-
NPM提供了很多命令,例如
install
和publish
,使用npm help
可查看所有命令。 -
使用
npm help <command>
可查看某条命令的详细帮助,例如npm help install
。 -
在
package.json
所在目录下使用npm install . -g
可先在本地安装当前命令行程序,可用于发布前的本地测试。 -
使用
npm update <package>
可以把当前目录下node_modules
子目录里边的对应模块更新至最新版本。 -
使用
npm update <package> -g
可以把全局安装的对应命令行程序更新至最新版。 -
使用
npm cache clear
可以清空NPM本地缓存,用于对付使用相同版本号发布新版本代码的人。 -
使用
npm unpublish <package>@<version>
可以撤销发布自己发布过的某个版本代码。
小结
本章介绍了使用NodeJS编写代码前需要做的准备工作,总结起来有以下几点:
-
编写代码前先规划好目录结构,才能做到有条不紊。
-
捎大些的程序可以将代码拆分为多个模块管理,更大些的程序可以使用包来组织模块。
-
合理使用
node_modules
和NODE_PATH
来解耦包的使用方式和物理路径。 -
使用NPM加入NodeJS生态圈互通有无。
-
想到了心仪的包名时请提前在NPM上抢注。
文件操作
让前端觉得如获神器的不是NodeJS能做网络编程,而是NodeJS能够操作文件。小至文件查找,大至代码编译,几乎没有一个前端工具不操作文件。换个角度讲,几乎也只需要一些数据处理逻辑,再加上一些文件操作,就能够编写出大多数前端工具。本章将介绍与之相关的NodeJS内置模块。
开门红
NodeJS提供了基本的文件操作API,但是像文件拷贝这种高级功能就没有提供,因此我们先拿文件拷贝程序练手。与copy
命令类似,我们的程序需要能接受源文件路径与目标文件路径两个参数。
小文件拷贝
我们使用NodeJS内置的fs
模块简单实现这个程序如下。
1
2
3
4
5
6
7
8
9
10
11
|
var
fs = require(
'fs'
);
function
copy(src, dst) {
fs.writeFileSync(dst, fs.readFileSync(src));
}
function
main(argv) {
copy(argv[0], argv[1]);
}
main(process.argv.slice(2));
|
以上程序使用fs.readFileSync
从源路径读取文件内容,并使用fs.writeFileSync
将文件内容写入目标路径。
豆知识:
process
是一个全局变量,可通过process.argv
获得命令行参数。由于argv[0]
固定等于NodeJS执行程序的绝对路径,argv[1]
固定等于主模块的绝对路径,因此第一个命令行参数从argv[2]
这个位置开始。
大文件拷贝
上边的程序拷贝一些小文件没啥问题,但这种一次性把所有文件内容都读取到内存中后再一次性写入磁盘的方式不适合拷贝大文件,内存会爆仓。对于大文件,我们只能读一点写一点,直到完成拷贝。因此上边的程序需要改造如下。
1
2
3
4
5
6
7
8
9
10
11
|
var
fs = require(
'fs'
);
function
copy(src, dst) {
fs.createReadStream(src).pipe(fs.createWriteStream(dst));
}
function
main(argv) {
copy(argv[0], argv[1]);
}
main(process.argv.slice(2));
|
以上程序使用fs.createReadStream
创建了一个源文件的只读数据流,并使用fs.createWriteStream
创建了一个目标文件的只写数据流,并且用pipe
方法把两个数据流连接了起来。连接起来后发生的事情,说得抽象点的话,水顺着水管从一个桶流到了另一个桶。