js字符串的存储方式及方法charAt()，charCodeAt()，codePointAt()用法总结

JavaScript 内部，字符以 UTF-16 的格式储存，每个字符固定为2个字节。对于那些需要4个字节储存的字符（Unicode 码点大于0xFFFF的字符），JavaScript 会认为它们是两个字符。

1、charAt() 方法可返回指定位置的字符。

但是charAt()一次只能返回一个字节，但是不管是英文还是中文一个字符都是两个自己组成的（Unicode编码）


 
 
   
   
    
    
   
   
   
   
    
    
     
     stringObject.charAt(index);
     
     //index字符在字符串中的下标
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     var s = 
     
     "新";
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     console.log(s.charAt(
     
     1));

2、charCodeAt()方法返回前两个字节和后两个字节的Unicode值。

"?"是一个需要4个字节存储的汉字


 
 
   
   
    
    
   
   
   
   
    
    
     
     var a=
     
     "?";
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     a.charCodeAt(
     
     0);
     
     //返回前两个字节的值 55362
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     a.charCodeAt(
     
     1);
     
     //返回后两个字节的值 57271

3、codePointAt（）方法，能够正确处理 4 个字节储存的字符，返回一个字符的码点(超过0xFFFF的字符也可以直接返回码点)


 
 
   
   
    
    
   
   
   
   
    
    
     
     var a=
     
     "?c"
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     a.charCodeAt(
     
     0);
     
     //返回了该字的十进制码点
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     a.charCodeAt(
     
     1);
     
     //返回后两个字节的值
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     a.charCodeAt(
     
     2);
     
     //返回c的由此可见

在第二个字符（即“?”的后两个字节）和第三个字符“c”上，codePointAt方法的结果与charCodeAt方法相同。
上面代码中，字符c在字符串a的正确位置序号应该是 1，但是必须向codePointAt方法传入 2。解决这个问题的一个办法是使用for...of循环，因为它会正确识别 32 位的 UTF-16 字符。


 
 
   
   
    
    
   
   
   
   
    
    
     
     let a = 
     
     '?c';
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     for (
     
     let ch 
     
     of a) {
    
    
   
   

   
   
    
    
   
   
   
   
    
       
     
     console.log(ch.codePointAt(
     
     0).toString(
     
     16));
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     }
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     // 20bb7
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     // 63

codePointAt()方法返回的是码点的十进制值，如果想要十六进制的值，可以使用toString方法转换一下。


 
 
   
   
    
    
   
   
   
   
    
    
     
     let a = '?
     
     c';
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     a.codePointAt(
     
     0).
     
     toString(
     
     16)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     a.codePointAt(
     
     2).
     
     toString(
     
     16)

codePointAt方法是测试一个字符由两个字节还是由四个字节组成的最简单方法。


 
 
   
   
    
    
   
   
   
   
    
    
     
     function is32Bit(c) {
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     return c.codePointAt(
     
     0) > 
     
     0xFFFF;
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     }
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     is32Bit(
     
     "?") 
     
     // true
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     is32Bit(
     
     "a") 
     
     // false