JavaScript内部字符以 UTF-16 的格式储存。允许采用\uxxxx
形式表示一个字符,其中xxxx
表示字符的 Unicode 码点。
码点在0x0000-0xFFFF,转化为十进制码点为0 -- 65536(2的16次方)的字符占2个字节,其中英文字母以及大部分中文都占2个字节。在js中所占长度为1。
码点超过0xFFFF的汉字,比如汉字(注意,这个字不是“吉祥”的“吉”)的码点是0x20BB7
,UTF-16 编码为0xD842 0xDFB7
(十进制为55362 57271
),需要4
个字节储存。在js中所占长度为2。验证代码如下:
var a = "哈";
console.log(a.length);//1
var b = "a";
console.log(b.length);//1
var c = '?';
console.log(c.length);//2
因此判断javascript(utf-16编码)中,字符占多少字节。
1、只需要求出字符串的长度然后乘以2便可。代码如下:
var c = '?a';
console.log(c.length*2);//6
2、思路是遍历字符串,取出每个字符,求出每个字符的码点。
在ES6出来之前,存在charAt方法可以遍历字符串。代码如下:
var c = '哈a';
for(var i=0;i<c.length;i++){
console.log(c.charAt(i));
}
但如果出现汉字是占4个字节的,charAt方法就不能正确处理。代码如下:
var c = '?a';
for(var i=0;i<c.length;i++){
console.log(c.charAt(i));
}
所以ES6就提供了for...of方法,代码如下:
var c = '?a';
for (let ch of s) {
console.log(ch);
}
另外ES6提供了codePointAt
方法,能够正确处理 4 个字节储存的字符,返回一个字符的码点。占2个字节的字符最大的码点为0xFFFF(十进制为65536)。超过65536(0xFFFF)的字符占4个字节。这样就可以实现。代码如下:
var c = '?a';
var len = 0 ;
for (let ch of c) {
if(ch.codePointAt(0) > 0xFFFF){
len += 4;
}else{
len += 2 ;
}
}
console.log(len);
但很多时候,需要判断utf-8编码中字符串的字节,英文字母在utf-8占1个字节,汉字在utf-8中占2-4个字节(一般占3个字节)。js提供内置对象TextEncoder,将字符串转化为ASCII码数组。
var enc = new TextEncoder("utf-8");
console.log(enc.encode("?a").length);//6
ps:占4个字节的本篇文章无法显示,只能用截图显示,抱歉