js判断字符串的字节

JavaScript内部字符以 UTF-16 的格式储存。允许采用\uxxxx形式表示一个字符,其中xxxx表示字符的 Unicode 码点。

码点在0x0000-0xFFFF,转化为十进制码点为0 -- 65536(2的16次方)的字符占2个字节,其中英文字母以及大部分中文都占2个字节。在js中所占长度为1。

码点超过0xFFFF的汉字,比如汉字(注意,这个字不是“吉祥”的“吉”)的码点是0x20BB7,UTF-16 编码为0xD842 0xDFB7(十进制为55362 57271),需要4个字节储存。在js中所占长度为2。验证代码如下:

var a = "哈";
console.log(a.length);//1
var b = "a";
console.log(b.length);//1
var c = '?';
console.log(c.length);//2

因此判断javascript(utf-16编码)中,字符占多少字节。

1、只需要求出字符串的长度然后乘以2便可。代码如下:

var c = '?a';
console.log(c.length*2);//6

2、思路是遍历字符串,取出每个字符,求出每个字符的码点。

在ES6出来之前,存在charAt方法可以遍历字符串。代码如下:

var c = '哈a';
for(var i=0;i<c.length;i++){
	console.log(c.charAt(i));
}

但如果出现汉字是占4个字节的,charAt方法就不能正确处理。代码如下:

var c = '?a';
for(var i=0;i<c.length;i++){
console.log(c.charAt(i));
}

所以ES6就提供了for...of方法,代码如下:

var c = '?a';
		
for (let ch of s) {
  	console.log(ch);
}

另外ES6提供了codePointAt方法,能够正确处理 4 个字节储存的字符,返回一个字符的码点。占2个字节的字符最大的码点为0xFFFF(十进制为65536)。超过65536(0xFFFF)的字符占4个字节。这样就可以实现。代码如下:

var c = '?a';
var len = 0 ;
for (let ch of c) {
if(ch.codePointAt(0) > 0xFFFF){
len += 4;
}else{
len += 2 ;
}
}
console.log(len);

但很多时候,需要判断utf-8编码中字符串的字节,英文字母在utf-8占1个字节,汉字在utf-8中占2-4个字节(一般占3个字节)。js提供内置对象TextEncoder,将字符串转化为ASCII码数组。

var enc = new TextEncoder("utf-8");
console.log(enc.encode("?a").length);//6

ps:占4个字节的本篇文章无法显示,只能用截图显示,抱歉

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值