js字符编码笔记

最新推荐文章于 2021-05-21 10:53:49 发布

weixin_30430169

最新推荐文章于 2021-05-21 10:53:49 发布

阅读量62

点赞数

文章标签： javascript ViewUI

原文链接：http://www.cnblogs.com/94pm/p/9512907.html

版权

一、什么是unicode？

ascii码能表示的字符非常有限（128个字符），这对英文来说足够了，但是对法文、中文、土耳奇文等文字则远远不够，于是就产生了新的编码规则-unicode,unicode中的字符，可以表达世界上各种语言的常用文字和符号。

unicode是一种编码规则，对相应的字符指定一个编码，这个编码叫做码点。

二、 unicode与utf-8、utf-16的关系

unicode是编码规则，指定了字符的码点，utf-8、utf-16等是编码方法，用多少字节来表示相应的码点。

详细的介绍请参考阮一峰老师的文章《Unicode与JavaScript详解》《字符编码笔记：ASCII，Unicode 和 UTF-8》

三、 js采用哪种编码方式？

js采用Unicode字符集，但是只支持usc-2编码，为什么该种编码方式很少听到呢，因为UTF-16出现后便取代了UCS-2，UCS-2变成了UTF-16的子集。所以，现在只有UTF-16，没有UCS-2。

在utf-16中的前65535个码点，每个码点占用2个字节，65535之后的每个码点占用4个字节。也就是说，UTF-16的编码长度要么是2个字节（U+0000到U+FFFF），要么是4个字节（U+010000到U+10FFFF）

掌握了该背景知识，下面的内容理解起来就很简单了

四、 js如何获取字符的unicode？

charCodeAt() 返回值是 0 - 65535 之间的 十进制整数，这个方法不可靠，如果一个字符的unicode超过65535(比如中文的?),需要 4个字节储存。对于这种 4个字节的字符，JavaScript 不能正确处理，字符串长度会误判为 2，而且 charAt方法无法读取整个字符， charCodeAt方法只能分别返回前两个字节和后两个字节的值

codePointAt() es6新增的方法，修正了charCodeAt的问题

五、 js用unicode码表示字符串

JavaScript 允许采用 \uxxxx形式表示一个字符，其中 xxxx是十六进制的unicode码点，该种表示法只限于码点在 \u0000~ \uFFFF之间的字符，超出这个范围的字符怎么办呢？答案是用双字节来表示

"\uD842\uDFB7"
// "?"

es6对这种情况进行了改进，只需采用\{xxxx}形式即可

"\u{20BB7}"
// "?"

"\u{41}\u{42}\u{43}"
// "ABC"

let hello = 123;
hell\u{6F} // 123

'\u{1F680}' === '\uD83D\uDE80'
// true

转载于:https://www.cnblogs.com/94pm/p/9512907.html

weixin_30430169

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
js字符编码笔记

一、什么是unicode？ascii码能表示的字符非常有限（128个字符），这对英文来说足够了，但是对法文、中文、土耳奇文等文字则远远不够，于是就产生了新的编码规则-unicode,unicode中的字符，可以表达世界上各种语言的常用文字和符号。unicode是一种编码规则，对相应的字符指定一个编码，这个编码叫做码点。二、 unicode与utf-8、utf-16的关系...
复制链接

扫一扫