Node.js中Buffer详解

在Node.js开发中,当遇到 buffer,stream和二进制数据处理时,你是否像我一样,总是感到困惑?这种感觉是否会让你认为不了解它们,以为它们不适合你,认为而这些是Node.js作者们的事情?

确实,这些东西可能非常令人生畏,尤其是当你在缺乏计算机底层基础知识,进行相关的开发。

可悲的是,许多教程和书籍直接告诉你如何使用 Node.js 包开发 Web 应用程序,而没有让你了解 Node.js 的核心功能以及它们存在的原因,有些人会地告诉你,你不需要了解它们,因为你可能永远不会直接用到这些。

没错,如果你选择做一名普通开发人员,可能永远不会用到他们。

如果你对这些内容存在疑问,你想理解 Node.js 的许多核心功能,比如 buffer...这就是我写本篇文章的原因,这是为了帮助我们揭开其中一些功能的神秘面纱,并使我们对 Node.js 的学习更上一层楼。

官方的 Node.js 文档部分说明:

JavaScript 语言没有读取或操作二进制数据流的机制。 Buffer 类被引入作为 Node.js API 的一部分,使其可以在 TCP 流或文件系统操作等场景中处理二进制数据流。

官方的描述可以总结为一句话:

buffer 能够与二进制数据流进行交互操作。 

但是 buffer,stream,二进制数据,仍然有很多不理解的地方。 好吧,我们尝试解决这些重要的问题。

一、二进制数据是什么?

你可能已经知道计算机是以二进制形式存储和表示数据,二进制只是一个1或0的集合。例如,以下是五个不同的二进制文件,5个不同的1和0集:

10,01,001,1110,00101011

二进制中的每个数字,0或1叫做位(bit),也就是Binary digIT 的缩写。

为了能够存储和表示这些数据,计算机需要将数据转换为二进制形式。比如,要存储数字12,计算机需要将12转化为二进制 1100

计算机怎么知道要如何去转换?这就完全是一个数学问题了。计算机是知道怎么去处理的,有兴趣的可以自己查阅。

但是我们日常工作的数据类型不仅仅是数字,我们还有字符串,图像,视频...计算机知道如何用二进制表示所有类型的数据的,让我们以字符串为例。计算机如何用二进制表示字符串“ L”?为了将字符存储为二进制形式,计算机首先将该字符转换为数字,然后将该数字转换为二进制表示,因此,对于字符串“ L”, 计算机首先将L转换为代表L的数字,让我们看如何操作:

打开浏览器控制台,粘贴以下代码段:"L".charCodeAt(0),按 Enter,你看到了什么?数字76?这就是字母L的数字编码,但是计算机怎么知道具体哪个数字代表那个字母呢?如何知道数字76表示L?

二、字符集

字符集是已经定义的一套规则,明确指出每个数字代表的字符,这些规则有不同的定义,流行的规则包括 Unicode 和 ASCII,JavaScript 在 Unicode 字符集方面的表现非常好,实际上,在浏览器中,它是 Unicode(可以尝试其他字符集),指出76表示大写“L”。

我们已经了解了计算机如何用数字表示字符,现在,计算机将依次将数字76表示为其二进制形式,你可能会认为,只需将76转换为以2为底的数字系统,没那么快!

三、字符编码

就像字符集规则定义那些数字代表那些字符一样,也有一些规则定义了如何使用二进制形式中表示该数字,具体来说,就是使用多少位来表示数字,这就是字符编码。

我们常见字符编码之一是 UTF-8,UTF-8 规定字符以字节表示,一个字节是8位(bit),即8个1和0表示一个字节,所以,用8个1和0组成的二进制序列,来表示和存储任意的一个字符。

为了更好的理解,举个例子: 比如之前提到的12的二进制表示是1100。 所以,使用 UTF-8 的格式来表示,应该使用一个字节,也就是8位来完整表示,也即00001100, 没有错吧?

因此,76在计算机中的存储形式应该是01001100。

这就是计算机将字符存储成二进制的方式。当然,计算机也有一些特殊规则,将图片、视频等存储为二进制的,总之,计算机会将无论图片、视频或其他数据都转换为二进制并存储,这就是我们说的二进制数据。

四、Stream

在Node.js中,流(stream)就是一系列从A点到B点移动的数据,完整点的说,就是当你有一个很大的数据需要传输、搬运时,你不需要等待所有数据都传输完成才开始下一步工作。

实际上,大型数据会被分割成小块(chunks)进行传输。所以,buffer 的原始定义中所说的(“streams of binary data… in the context of… file system”)意思就是说二进制数据在文件系统中的传输。比如,将 file1.txt 的文字存储到 file2.txt 中。

但是,buffer 到底在流(stream)中,是如何操作二进制数据的?buffer 到底是什么呢?

五、Buffer

我们已经知道数据流(stream of data)是从一个地方向另一个地方传输数据的过程,但是这个具体是怎么样的一个过程?

通常情况下,我们传输数据往往是为了读取它,处理它,或者基于这些数据做一些其他操作,但是,在每次传输过程中,有一个数据量的问题。因此当获取到数据的时间比处理数据理的时间快时,我们处理数据就需要等待了。

这个”等待区域”就是 buffer! 它是电脑上的一个很小的物理地址,一般在内存中,数据在这里暂时存储,等待,最后在流(stream)中,发送出去并处理,比如说和显卡相关的 webgl 处理就是一个例子。

我们可以把整个流(stream)和 buffer 的配合过程看作公交站。在一些公交站,公车在没有装满乘客前是不会发车的,或者在特定的时刻才会发车。当然,乘客也可能在不同的时间,人流量大小也会有所不同,有人多的时候,有人少的时候,乘客或公交站都无法控制人流量。

不论何时,早到的乘客都必须等待,直到公车接到指令可以发车。当乘客到站,发现公车已经装满,或者已经开走,他就必须等待下一班车次。

总之,这里总会有一个等待的地方,这个等待的区域就是 Node.js 中的 Buffer,Node.js 不能控制数据什么时候传输过来,传输速度,就好像公交车站无法控制人流量一样。他只能决定什么时候发送数据。如果时间还不到,那么 Node.js 就会把数据放入 buffer(等待区域)中,一个在内存中的地址,直到把他们发送出去进行处理。

一个关于 buffer 很典型的例子,就是你在线看视频的时候。如果你的网络足够快,数据流(stream)就可以足够快,可以让 buffer 迅速填满然后发送和处理,然后处理另一个,再发送,再另一个,再发送,然后整个 stream 完成。

但是当你网络连接很慢,当处理完当前的数据后,你的播放器就会暂停,或出现”缓冲”(buffer)字样,意思是正在收集更多的数据,或者等待更多的数据到来,才能下一步处理。当buffer装满并处理好,播放器就会显示数据,也就是播放视频了。在播放当前内容的时候,更多的数据也会源源不断的传输、到达和在 buffer 等待。

这就是 buffer!

从原始的定义,我们知道,buffer 可以在 stream 中与二进制数据进行交互和操作。那么到底可以进行什么样的操作呢?在 Node.js 中又应该如何进行刚才所描述的一些东西呢?我们来瞧一瞧。

六、与 buffer 交互

1、创建 Buffer 类

Buffer 提供了以下 API 来创建 Buffer 类:

  • Buffer.alloc(size[, fill[, encoding]]): 返回一个指定大小的 Buffer 实例,如果没有设置 fill,则默认填满 0
  • Buffer.allocUnsafe(size): 返回一个指定大小的 Buffer 实例,但是它不会被初始化,所以它可能包含敏感的数据
  • Buffer.allocUnsafeSlow(size)
  • Buffer.from(array): 返回一个被 array 的值初始化的新的 Buffer 实例(传入的 array 的元素只能是数字,不然就会自动被 0 覆盖)
  • Buffer.from(arrayBuffer[, byteOffset[, length]]): 返回一个新建的与给定的 ArrayBuffer 共享同一内存的 Buffer。
  • Buffer.from(buffer): 复制传入的 Buffer 实例的数据,并返回一个新的 Buffer 实例
  • Buffer.from(string[, encoding]): 返回一个被 string 的值初始化的新的 Buffer 实例
// 创建一个长度为 10、且用 0 填充的 Buffer。
const buf1 = Buffer.alloc(10);

// 创建一个长度为 10、且用 0x1 填充的 Buffer。 
const buf2 = Buffer.alloc(10, 1);

// 创建一个长度为 10、且未初始化的 Buffer。
// 这个方法比调用 Buffer.alloc() 更快,
// 但返回的 Buffer 实例可能包含旧数据,
// 因此需要使用 fill() 或 write() 重写。
const buf3 = Buffer.allocUnsafe(10);

// 创建一个包含 [0x1, 0x2, 0x3] 的 Buffer。
const buf4 = Buffer.from([1, 2, 3]);

// 创建一个包含 UTF-8 字节 [0x74, 0xc3, 0xa9, 0x73, 0x74] 的 Buffer。
const buf5 = Buffer.from('tést');

// 创建一个包含 Latin-1 字节 [0x74, 0xe9, 0x73, 0x74] 的 Buffer。
const buf6 = Buffer.from('tést', 'latin1');

2、写入缓冲区

语法

写入 Node 缓冲区的语法如下所示:

buf.write(string[, offset[, length]][, encoding])

参数

参数描述如下:

string - 写入缓冲区的字符串。

offset - 缓冲区开始写入的索引值,默认为 0 。

length - 写入的字节数,默认为 buffer.length

encoding - 使用的编码。默认为 'utf8' 。

根据 encoding 的字符编码写入 string 到 buf 中的 offset 位置。 length 参数是写入的字节数。 如果 buf 没有足够的空间保存整个字符串,则只会写入 string 的一部分。 只部分解码的字符不会被写入。

返回值

返回实际写入的大小。如果 buffer 空间不足, 则只会写入部分字符串。

实例

buf = Buffer.alloc(256);

len = buf.write("www.runoob.com");

console.log("写入字节数 : "+  len);

执行以上代码,输出结果为:

$node main.js
写入字节数 : 14

3、从缓冲区读取数据

语法

读取 Node 缓冲区数据的语法如下所示:

buf.toString([encoding[, start[, end]]])

参数

参数描述如下:

encoding - 使用的编码。默认为 'utf8' 。

start - 指定开始读取的索引位置,默认为 0。

end - 结束位置,默认为缓冲区的末尾。

返回值

解码缓冲区数据并使用指定的编码返回字符串。

实例

buf = Buffer.alloc(26);
for (var i = 0 ; i < 26 ; i++) {
  buf[i] = i + 97;
}

console.log( buf.toString('ascii'));       // 输出: abcdefghijklmnopqrstuvwxyz
console.log( buf.toString('ascii',0,5));   //使用 'ascii' 编码, 并输出: abcde
console.log( buf.toString('utf8',0,5));    // 使用 'utf8' 编码, 并输出: abcde
console.log( buf.toString(undefined,0,5)); // 使用默认的 'utf8' 编码, 并输出: abcde

执行以上代码,输出结果为:

$ node main.js
abcdefghijklmnopqrstuvwxyz
abcde
abcde
abcde

4、将 Buffer 转换为 JSON 对象

语法

将 Node Buffer 转换为 JSON 对象的函数语法格式如下:

buf.toJSON()

当字符串化一个 Buffer 实例时,JSON.stringify() 会隐式地调用该 toJSON()。

返回值

返回 JSON 对象。

实例

const buf = Buffer.from([0x1, 0x2, 0x3, 0x4, 0x5]);
const json = JSON.stringify(buf);

// 输出: {"type":"Buffer","data":[1,2,3,4,5]}
console.log(json);

const copy = JSON.parse(json, (key, value) => {
  return value && value.type === 'Buffer' ?
    Buffer.from(value.data) :
    value;
});

// 输出: <Buffer 01 02 03 04 05>
console.log(copy);

执行以上代码,输出结果为:

{"type":"Buffer","data":[1,2,3,4,5]}
<Buffer 01 02 03 04 05>

5、聊聊Buffer

JavaScript对字符串处理十分友好,无论是宽字节还是单字节字符串,都被认为是一个字符串。Node中需要处理网络协议、操作数据库、处理图片、文件上传等,还需要处理大量二进制数据,自带的字符串远不能满足这些要求,因此Buffer应运而生。

Buffer结构

Buffer是一个典型的Javascript和C++结合的模块,性能相关部分用C++实现,非性能相关部分用javascript实现。

Node在进程启动时Buffer就已经加装进入内存,并将其放入全局对象,因此无需require

Buffer对象:类似于数组,其元素是16进制的两位数。

Buffer内存分配

Buffer对象的内存分配不是在V8的堆内存中,在Node的C++层面实现内存的申请。

为了高效的使用申请来得内存,Node中采用slab分配机制,slab是一种动态内存管理机制,应用各种*nix操作系统。slab有三种状态:

(1) full:完全分配状态

(2) partial:部分分配状态

(3) empty:没有被分配状态

6、总结

(1)JavaScript适合处理Unicode编码数据,但对二进制数据的处理并不友好。

(2)所以处理TCP流或文件系统时,对八位字节流的处理很有必要。

(3)Node有几个用于处理,创建和消耗八位字节流的方法。

(4)原始数据存放在一个Buffer实例中,一个Buffer类似一个整数数组,但是它的内存,分配在V8堆栈外。一个Buffer的大小是不能更改的。

(5)处理的编码类型有:ascii,utf8,utf16le,ucs2(utf16le的别名),base64,binary,hex。

(6)Buffer为全局元素,直接new Buffer()就得到一个Buffer实例。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值