Node.js中Buffer详解

最新推荐文章于 2024-06-03 10:32:53 发布

duansamve

最新推荐文章于 2024-06-03 10:32:53 发布

阅读量724

点赞数

分类专栏： nodejs 文章标签： node

本文链接：https://blog.csdn.net/duansamve/article/details/89791963

版权

nodejs 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

在Node.js开发中，当遇到 buffer，stream和二进制数据处理时，你是否像我一样，总是感到困惑？这种感觉是否会让你认为不了解它们，以为它们不适合你，认为而这些是Node.js作者们的事情？

确实，这些东西可能非常令人生畏，尤其是当你在缺乏计算机底层基础知识，进行相关的开发。

可悲的是，许多教程和书籍直接告诉你如何使用 Node.js 包开发 Web 应用程序，而没有让你了解 Node.js 的核心功能以及它们存在的原因，有些人会地告诉你，你不需要了解它们，因为你可能永远不会直接用到这些。

没错，如果你选择做一名普通开发人员，可能永远不会用到他们。

如果你对这些内容存在疑问，你想理解 Node.js 的许多核心功能，比如 buffer...这就是我写本篇文章的原因，这是为了帮助我们揭开其中一些功能的神秘面纱，并使我们对 Node.js 的学习更上一层楼。

官方的 Node.js 文档部分说明：

JavaScript 语言没有读取或操作二进制数据流的机制。 Buffer 类被引入作为 Node.js API 的一部分，使其可以在 TCP 流或文件系统操作等场景中处理二进制数据流。

官方的描述可以总结为一句话：

buffer 能够与二进制数据流进行交互操作。

但是 buffer，stream，二进制数据，仍然有很多不理解的地方。好吧，我们尝试解决这些重要的问题。

一、二进制数据是什么？

你可能已经知道计算机是以二进制形式存储和表示数据，二进制只是一个1或0的集合。例如，以下是五个不同的二进制文件，5个不同的1和0集：

10，01，001，1110，00101011

二进制中的每个数字，0或1叫做位(bit)，也就是Binary digIT 的缩写。

为了能够存储和表示这些数据，计算机需要将数据转换为二进制形式。比如，要存储数字12，计算机需要将12转化为二进制 1100

计算机怎么知道要如何去转换？这就完全是一个数学问题了。计算机是知道怎么去处理的，有兴趣的可以自己查阅。

但是我们日常工作的数据类型不仅仅是数字，我们还有字符串，图像，视频...计算机知道如何用二进制表示所有类型的数据的，让我们以字符串为例。计算机如何用二进制表示字符串“ L”？为了将字符存储为二进制形式，计算机首先将该字符转换为数字，然后将该数字转换为二进制表示，因此，对于字符串“ L”，计算机首先将L转换为代表L的数字，让我们看如何操作：

打开浏览器控制台，粘贴以下代码段："L".charCodeAt(0)，按 Enter，你看到了什么？数字76？这就是字母L的数字编码，但是计算机怎么知道具体哪个数字代表那个字母呢？如何知道数字76表示L？

二、字符集

字符集是已经定义的一套规则，明确指出每个数字代表的字符，这些规则有不同的定义，流行的规则包括 Unicode 和 ASCII，JavaScript 在 Unicode 字符集方面的表现非常好，实际上，在浏览器中，它是 Unicode（可以尝试其他字符集），指出76表示大写“L”。

我们已经了解了计算机如何用数字表示字符，现在，计算机将依次将数字76表示为其二进制形式，你可能会认为，只需将76转换为以2为底的数字系统，没那么快！

三、字符编码

就像字符集规则定义那些数字代表那些字符一样，也有一些规则定义了如何使用二进制形式中表示该数字，具体来说，就是使用多少位来表示数字，这就是字符编码。

我们常见字符编码之一是 UTF-8，UTF-8 规定字符以字节表示，一个字节是8位(bit)，即8个1和0表示一个字节，所以，用8个1和0组成的二进制序列，来表示和存储任意的一个字符。

为了更好的理解，举个例子：比如之前提到的12的二进制表示是1100。所以，使用 UTF-8 的格式来表示，应该使用一个字节，也就是8位来完整表示，也即00001100，没有错吧？

因此，76在计算机中的存储形式应该是01001100。

这就是计算机将字符存储成二进制的方式。当然，计算机也有一些特殊规则，将图片、视频等存储为二进制的，总之，计算机会将无论图片、视频或其他数据都转换为二进制并存储，这就是我们说的二进制数据。

四、Stream

在Node.js中，流(stream)就是一系列从A点到B点移动的数据，完整点的说，就是当你有一个很大的数据需要传输、搬运时，你不需要等待所有数据都传输完成才开始下一步工作。

实际上，大型数据会被分割成小块(chunks)进行传输。所以，buffer 的原始定义中所说的(“streams of binary data… in the context of… file system”)意思就是说二进制数据在文件系统中的传输。比如，将 file1.txt 的文字存储到 file2.txt 中。

但是，buffer 到底在流(stream)中，是如何操作二进制数据的？buffer 到底是什么呢？

五、Buffer

我们已经知道数据流(stream of data)是从一个地方向另一个地方传输数据的过程，但是这个具体是怎么样的一个过程？

通常情况下，我们传输数据往往是为了读取它，处理它，或者基于这些数据做一些其他操作，但是，在每次传输过程中，有一个数据量的问题。因此当获取到数据的时间比处理数据理的时间快时，我们处理数据就需要等待了。

这个”等待区域”就是 buffer! 它是电脑上的一个很小的物理地址，一般在内存中，数据在这里暂时存储，等待，最后在流(stream)中，发送出去并处理，比如说和显卡相关的 webgl 处理就是一个例子。

我们可以把整个流(stream)和 buffer 的配合过程看作公交站。在一些公交站，公车在没有装满乘客前是不会发车的，或者在特定的时刻才会发车。当然，乘客也可能在不同的时间，人流量大小也会有所不同，有人多的时候，有人少的时候，乘客或公交站都无法控制人流量。

不论何时，早到的乘客都必须等待，直到公车接到指令可以发车。当乘客到站，发现公车已经装满，或者已经开走，他就必须等待下一班车次。

总之，这里总会有一个等待的地方，这个等待的区域就是 Node.js 中的 Buffer，Node.js 不能控制数据什么时候传输过来，传输速度，就好像公交车站无法控制人流量一样。他只能决定什么时候发送数据。如果时间还不到，那么 Node.js 就会把数据放入 buffer（等待区域）中，一个在内存中的地址，直到把他们发送出去进行处理。

一个关于 buffer 很典型的例子，就是你在线看视频的时候。如果你的网络足够快，数据流(stream)就可以足够快，可以让 buffer 迅速填满然后发送和处理，然后处理另一个，再发送，再另一个，再发送，然后整个 stream 完成。

但是当你网络连接很慢，当处理完当前的数据后，你的播放器就会暂停，或出现”缓冲”(buffer)字样，意思是正在收集更多的数据，或者等待更多的数据到来，才能下一步处理。当buffer装满并处理好，播放器就会显示数据，也就是播放视频了。在播放当前内容的时候，更多的数据也会源源不断的传输、到达和在 buffer 等待。

这就是 buffer！

从原始的定义，我们知道，buffer 可以在 stream 中与二进制数据进行交互和操作。那么到底可以进行什么样的操作呢？在 Node.js 中又应该如何进行刚才所描述的一些东西呢？我们来瞧一瞧。

六、与 buffer 交互

1、创建 Buffer 类

Buffer 提供了以下 API 来创建 Buffer 类：

Buffer.alloc(size[, fill[, encoding]])：返回一个指定大小的 Buffer 实例，如果没有设置 fill，则默认填满 0
Buffer.allocUnsafe(size)：返回一个指定大小的 Buffer 实例，但是它不会被初始化，所以它可能包含敏感的数据
Buffer.allocUnsafeSlow(size)
Buffer.from(array)：返回一个被 array 的值初始化的新的 Buffer 实例（传入的 array 的元素只能是数字，不然就会自动被 0 覆盖）
Buffer.from(arrayBuffer[, byteOffset[, length]])：返回一个新建的与给定的 ArrayBuffer 共享同一内存的 Buffer。
Buffer.from(buffer)：复制传入的 Buffer 实例的数据，并返回一个新的 Buffer 实例
Buffer.from(string[, encoding])：返回一个被 string 的值初始化的新的 Buffer 实例

// 创建一个长度为 10、且用 0 填充的 Buffer。
const buf1 = Buffer.alloc(10);

// 创建一个长度为 10、且用 0x1 填充的 Buffer。 
const buf2 = Buffer.alloc(10, 1);

// 创建一个长度为 10、且未初始化的 Buffer。
// 这个方法比调用 Buffer.alloc() 更快，
// 但返回的 Buffer 实例可能包含旧数据，
// 因此需要使用 fill() 或 write() 重写。
const buf3 = Buffer.allocUnsafe(10);

// 创建一个包含 [0x1, 0x2, 0x3] 的 Buffer。
const buf4 = Buffer.from([1, 2, 3]);

// 创建一个包含 UTF-8 字节 [0x74, 0xc3, 0xa9, 0x73, 0x74] 的 Buffer。
const buf5 = Buffer.from('tést');

// 创建一个包含 Latin-1 字节 [0x74, 0xe9, 0x73, 0x74] 的 Buffer。
const buf6 = Buffer.from('tést', 'latin1');

2、写入缓冲区

语法

写入 Node 缓冲区的语法如下所示：

buf.write(string[, offset[, length]][, encoding])

参数

参数描述如下：

string - 写入缓冲区的字符串。

offset - 缓冲区开始写入的索引值，默认为 0 。

length - 写入的字节数，默认为 buffer.length

encoding - 使用的编码。默认为 'utf8' 。

根据 encoding 的字符编码写入 string 到 buf 中的 offset 位置。 length 参数是写入的字节数。如果 buf 没有足够的空间保存整个字符串，则只会写入 string 的一部分。只部分解码的字符不会被写入。

返回值

返回实际写入的大小。如果 buffer 空间不足，则只会写入部分字符串。

实例

buf = Buffer.alloc(256);

len = buf.write("www.runoob.com");

console.log("写入字节数 : "+  len);

执行以上代码，输出结果为：

$node main.js
写入字节数 : 14

3、从缓冲区读取数据

语法

读取 Node 缓冲区数据的语法如下所示：

buf.toString([encoding[, start[, end]]])

参数

参数描述如下：

encoding - 使用的编码。默认为 'utf8' 。

start - 指定开始读取的索引位置，默认为 0。

end - 结束位置，默认为缓冲区的末尾。

返回值

解码缓冲区数据并使用指定的编码返回字符串。

实例

buf = Buffer.alloc(26);
for (var i = 0 ; i < 26 ; i++) {
  buf[i] = i + 97;
}

console.log( buf.toString('ascii'));       // 输出: abcdefghijklmnopqrstuvwxyz
console.log( buf.toString('ascii',0,5));   //使用 'ascii' 编码, 并输出: abcde
console.log( buf.toString('utf8',0,5));    // 使用 'utf8' 编码, 并输出: abcde
console.log( buf.toString(undefined,0,5)); // 使用默认的 'utf8' 编码, 并输出: abcde

执行以上代码，输出结果为：

$ node main.js
abcdefghijklmnopqrstuvwxyz
abcde
abcde
abcde

4、将 Buffer 转换为 JSON 对象

语法

将 Node Buffer 转换为 JSON 对象的函数语法格式如下：

buf.toJSON()

当字符串化一个 Buffer 实例时，JSON.stringify() 会隐式地调用该 toJSON()。

返回值

返回 JSON 对象。

实例

const buf = Buffer.from([0x1, 0x2, 0x3, 0x4, 0x5]);
const json = JSON.stringify(buf);

// 输出: {"type":"Buffer","data":[1,2,3,4,5]}
console.log(json);

const copy = JSON.parse(json, (key, value) => {
  return value && value.type === 'Buffer' ?
    Buffer.from(value.data) :
    value;
});

// 输出: <Buffer 01 02 03 04 05>
console.log(copy);

执行以上代码，输出结果为：

{"type":"Buffer","data":[1,2,3,4,5]}
<Buffer 01 02 03 04 05>

5、聊聊Buffer

JavaScript对字符串处理十分友好，无论是宽字节还是单字节字符串，都被认为是一个字符串。Node中需要处理网络协议、操作数据库、处理图片、文件上传等，还需要处理大量二进制数据，自带的字符串远不能满足这些要求，因此Buffer应运而生。

Buffer结构

Buffer是一个典型的Javascript和C++结合的模块，性能相关部分用C++实现，非性能相关部分用javascript实现。

Node在进程启动时Buffer就已经加装进入内存，并将其放入全局对象，因此无需require

Buffer对象：类似于数组，其元素是16进制的两位数。

Buffer内存分配

Buffer对象的内存分配不是在V8的堆内存中，在Node的C++层面实现内存的申请。

为了高效的使用申请来得内存，Node中采用slab分配机制，slab是一种动态内存管理机制，应用各种*nix操作系统。slab有三种状态：

(1) full：完全分配状态

(2) partial：部分分配状态

(3) empty：没有被分配状态

6、总结

（1）JavaScript适合处理Unicode编码数据，但对二进制数据的处理并不友好。

（2）所以处理TCP流或文件系统时，对八位字节流的处理很有必要。

（3）Node有几个用于处理，创建和消耗八位字节流的方法。

（4）原始数据存放在一个Buffer实例中，一个Buffer类似一个整数数组，但是它的内存，分配在V8堆栈外。一个Buffer的大小是不能更改的。

（5）处理的编码类型有：ascii,utf8,utf16le,ucs2（utf16le的别名）,base64,binary,hex。

（6）Buffer为全局元素，直接new Buffer()就得到一个Buffer实例。

duansamve

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Node.js中Buffer详解

一，开篇分析NodeJS的开发语言是JavaScript，JavaScript语言自身只有字符串数据类型，没有二进制数据类型。NodeJS有时会进行网络传输、文件操作、图片处理等操作，而这些操作都与二进制数据紧密相关。因此，NodeJS提供了一个与String对等的全局构造函数Buffer来提供对二进制数据的操作。除了可以读取文件等操作得到Buffer的实例外，还能够直接构造，例如：va...
复制链接

扫一扫

专栏目录