js判断字符串的字节

最新推荐文章于 2024-07-26 02:48:40 发布

置顶 daiqu2018

最新推荐文章于 2024-07-26 02:48:40 发布

阅读量8.5k

点赞数

分类专栏： javascript

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/daiqu2018/article/details/78986275

版权

javascript 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

JavaScript内部字符以 UTF-16 的格式储存。允许采用\uxxxx形式表示一个字符，其中xxxx表示字符的 Unicode 码点。

码点在0x0000-0xFFFF，转化为十进制码点为0 -- 65536（2的16次方）的字符占2个字节，其中英文字母以及大部分中文都占2个字节。在js中所占长度为1。

码点超过0xFFFF的汉字，比如汉字（注意，这个字不是“吉祥”的“吉”）的码点是0x20BB7，UTF-16 编码为0xD842 0xDFB7（十进制为55362 57271），需要4个字节储存。在js中所占长度为2。验证代码如下：

var a = "哈";
console.log(a.length);//1
var b = "a";
console.log(b.length);//1
var c = '?';
console.log(c.length);//2

因此判断javascript（utf-16编码）中，字符占多少字节。

1、只需要求出字符串的长度然后乘以2便可。代码如下：

var c = '?a';
console.log(c.length*2);//6

2、思路是遍历字符串，取出每个字符，求出每个字符的码点。

在ES6出来之前，存在charAt方法可以遍历字符串。代码如下：

var c = '哈a';
for(var i=0;i<c.length;i++){
	console.log(c.charAt(i));
}

但如果出现汉字是占4个字节的，charAt方法就不能正确处理。代码如下：

var c = '?a';
for(var i=0;i<c.length;i++){
console.log(c.charAt(i));
}

所以ES6就提供了for...of方法，代码如下：

var c = '?a';
		
for (let ch of s) {
  	console.log(ch);
}

另外ES6提供了codePointAt方法，能够正确处理 4 个字节储存的字符，返回一个字符的码点。占2个字节的字符最大的码点为0xFFFF(十进制为65536）。超过65536（0xFFFF）的字符占4个字节。这样就可以实现。代码如下：

var c = '?a';
var len = 0 ;
for (let ch of c) {
if(ch.codePointAt(0) > 0xFFFF){
len += 4;
}else{
len += 2 ;
}
}
console.log(len);

但很多时候，需要判断utf-8编码中字符串的字节，英文字母在utf-8占1个字节，汉字在utf-8中占2-4个字节（一般占3个字节）。js提供内置对象TextEncoder，将字符串转化为ASCII码数组。

var enc = new TextEncoder("utf-8");
console.log(enc.encode("?a").length);//6

ps:占4个字节的本篇文章无法显示，只能用截图显示，抱歉

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。