字符串的扩展

安歌的博客

于 2021-10-14 17:50:20 发布

阅读量383

点赞数

分类专栏： es6 文章标签： javascript es6

本文链接：https://blog.csdn.net/qq_32682137/article/details/120757616

版权

es6 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

字符串的扩展

- 字符的Unicode表示

字符的Unicode表示

字符串方法

JavaScript 许采用\uxxxx形式表示一个字符，其中 xxxx 表示字符的 Unicode 码点。但是，，这种表示法只限于码点在\u0000 - \uFFFF 之间的字符。超出这个范围的字符，必须用两个双字节的形式表达，例如（‘𠮷’：\uD842\uDFB7）。如果直接在\u面跟上超过 0xFFFF 的数值（比如\u20BB7 ) , JavaScript 会理解成\u20BB+7。由于\u20BB是一个不可打印字符，所以只会显示空格，后面跟一个7。
ES6 对这一点做出了改进，只要将码点放入大括号，就能正确解读该字符。（\u{20BB7})

codePointAt()

JavaScript 内部，字符以 UTF-16 的格式储存，每个字符固定为2个字节。对于那些需要4个字节储存的字符（ Unicode 码点大于 0xFFFF 的字符） , JavaScript 会认为它们是2个字符。

var s = '𠮷';
s.length; //2

汉字‘𠮷’的码点是0x20BB7，UTF-16编码为0xD842 0xDFB7（十进制为55362 57271)，需要4个字节存储。对于这种4个字节的字符， JavaScript 不能正确处理，字符串长度会被误判为2，而且 charAt 方法无法读取整个字符， charCodeAt 方法只能分别返回前2个字节和后2个字节的值。
es6提供了codePointAt方法，能够正确处理4个字节的字符，返回一个字符的码点。

var s = '𠮷a'; 
s.codePointAt(0) //134071
s.codePointAt(1) // 57271 
s.codePointAt(2) // 97
//字符a在字符串中的正确位置序号应该是2，但是必须传入2。解决这个问题的办法是使用 for ... of 循环，因为它会正确识别 32 位的 UTF-16 字符。

codePointAt 方法的参数是字符在字符串中的位置（从0开始）。上面的代码中， JavaScript将‘𠮷a’视为3个字符。 codePointAt 方法在第一个字符上正确地识别了“𠮷”，返回了它的十进制码点 134071 （即十六进制的 20BB7 ）。在第二个字符（即“𠮷”的后2个字节）和第3个字符“a”上， codePointAt 方法的结果与 charCodeAt 方法相同。
codePointAt 方法会正确返回 32 位的 UTF-16 字符的码点。对于那些2个字节储存的常规字符，它的返回结果与 charCodeAt 方法相同。
codePointAt 方法返回的是码点的十进制值，如果想要十六进制的值，可以使用toString 方法转换。
codePointAt 方法是测试一个字符是由2个字节还是4个字节组成的最简单方法。

function is32Bit (c){
  return c.codePointAt(0)> 0xFFFF;
}

String.fromCodePoint()

	String.fromCharCode	String.fromCodePoint
作用	从码点返回对应的字符串	从码点返回对应的字符串
区别	不能识别大于0xFFFF的码点	可以识别大于0xFFFF的码点

fromCodePoint 方法定义在 String 对象上，而 codePointAt 方法定义在字符串的实例对象上

at()

ES5 对字符串对象提供了chartAt 方法返回字符串给定位置的字符。该方法不能识别码点大于 0xFFFF 的字符。目前，有一个提案提出字符串实例的 at 方法，可以识别Unicode 编号大于 0xFFFF 的字符，返回正确的字符。

normalize()

许多欧洲语言有语调符号和重音符号。为了表示它 Unicode 提供了两方法。一种是直接提供带重音符号的字符，比如Ǒ（\u01D1 ）。另一是提供合成符号, 即原字符与重音符号合成为一个字符，比 ( \u004F ）和 (\u030C ）合成Ǒ。这两种表示方法在视觉和语义上都等价，但是 JavaScript 无法识别。

'\u01D1' === '\u004F\u030C' //false 
'\u01D1'.length 			// 1 
'\u004F\u030C'.length 		// 2

ES6 为字符串实例提供了 normalize 方法，用来将字符的不同表示方法统一为同样的形式，这称为 Unicode 正规化。

'\u01D1'.normalize() === '\u004F\u030C'.normalize ()  //true

normalize 方法可接受一个参数来指定normalize的方式，参数的4个可选值如下：

NFC，默认参数，表示“标准等价合成”，返回多个简单字符的合成字符。所谓“标准等价”指的是视觉和语义上的等价。
NFD ，表示“标准等价分解”，即在标准等价前提下，返回合成字符分解出的多个简单字符。
KC ，表示“兼容等价合成”，返回合成字符。所谓“兼容等价”指的是语义上等价，但视觉上不等价。
NFKD ，表示“兼容等价分解”，即在兼容等价前提下，返回合成字符分解出的多个简单字符。

'\u004F\u030C'.normalize('NFC').length // 1 
'\u004F\u030C'.normalize('NFD').length // 2

normalize 方法目前不能识3个或3个以上字符的合成。这种情况下，还是只能使用正表达式通过 Unicode 编号区间判断。

includes()

includes()方法返回布尔值，表示是否找到了参数字符串。
使用方法：s.includes(str,n)，其中str代表待查找的字符串，n是可选参数，表示开始搜索的位置。

startsWith()、 endsWith()

startsWith方法返回布尔值，表示参数字符串是否在源字符串的头部。
使用方法：s.startsWith(str,n)，其中str代表待查找的字符串，n是可选参数，表示开始搜索的位置。
endsWith方法返回布尔值，表示参数字符串是否在源字符串的尾部。
使用方法：s.endsWith(str,n)，其中str代表待查找的字符串，n是可选参数，表示在前n个字符前搜索。

var s = 'Hello world!'; 
s.startsWith('world', 6) //true 
s.endsWith('Hello', 5) // true 
s.includes('Hello', 6) // false

repeat()

repeat(n)方法返回一个新字符串，表示将原字符串重复n次。
如果参数是小数会被取整。
如果参数是负数或者Infinity，会报错。-0视同为0。
如果参数是字符串，则会先转成数字。

 'na'.repeat(0); // ''
 'na'.repeat(NaN); // ''

padStart()、padEnd()

ES2017引入了字符串补全长度的功能。如果某个字符串不够指定长度，会在头部或尾部补全。padStart()用于补全头部，padEnd()用于补全尾部。
padStart和padEnd接受两个参数，第一个参数用来指定字符串的最小长度，第二个参数则是用来补全的字符串。

如果原字符串的长度等于或大于指定的最小长度，则返回原字符串。
如果用来补全的字符串与原字符串长度之和超过了指定的最小长度，则会截去超出位数的补全字符串。
如果省略第二个参数，会用空格来补全。

'x'.padStart(5,'ab') // 'ababx'
'x'.padStart(4,'ab') // 'abax'

用途：

为数值补全指定位数
提示字符串格式

字符串的遍历器接口

ES6 为字符串添加了遍历器接口，使得字符串可以由 for … of 循环遍历。这个遍历器最大的优点是可以识别大于 0xFFFF 的码点，传统的 for循环无法识别这样的码点。

var text = String.fromCodePoint(0x20BB7); 
for (let i = 0; i < text.length; i++) { 
	console.log(text[i]) ; 
}
// " "
// " "
for (let i of text) { 
	console.log(i) ;  //"𠮷"
}

模板

模板字符串

模板字符串是增强版的字符串，用反引号标识。它可以当作普通字符串使用，也可以用来定义多行字符串，或者在字符串中嵌入变量。
如果在模板字符串中需要使用反引号，则在其前面要用反斜杠转义。
使用模板字符串表示多行字符串，所有的空格和缩进都会被保留在输出中。
在模板字符串中嵌入变量，需要将变量名写在${}中，大括号内可以放入任意的 JavaScript 表达式，可以进行运算，以及引用对象属性，还能调用函数。
如果大括号中的值不是字符串，将按照一般的规则转为字符串。
如果模板字符串中的变量没有声明，将报错。
由于模板字符串的大括号内部就是要执行的 JavaScript代码，因此如果大括号内部是字符串，将会原样输出。
模板字符串可以嵌套使用。

标签模板

模板字符串可以紧跟在一个函数名后面，该函数将被调用来处理这个模板字符串。这被称为“标签模板”功能。标签模板其实不是模板，而是函数调用的一种特殊形式。“标签”指的就是函数，紧跟在后面的模板字符串就是它的参数。如果模板字符中有变量，需要将模板字符串先处理成多个参数，再调用函数。

var a = 5 ; 
var b = 10; 
tag `Hello ${ a + b } world ${ a * b }`；
//等同于
tag (['Hello','world',''], 15, 50);

tag 函数的第一个参数是个数组，该数组的成员是模板字符串中那些没有变量替换的部分，也就是说，变量替换只发生在数组的第一个成员与第二个成员之间、第二个成员与第三个成员之间，以此类推。
tag 函数的其他参数都是模板字符串各个变量被替换后的值。

//将各个参数拼接回去
var total = 30; 
var msg = passthru`The total is ${total} (${total*1.05} with tax)`
function passthru(literals) { 
  var result = ''; 
  var i = 0; 
  while (i < literals.length) { 
    result += literals[i++] ; 
    if (i < arguments.length) { 
      result+= arguments[i) ; 
    }
  }
  return result; 
}
msg   //'The total is 30 (31.5 with tax ) '
// 参数采用 rest 参数的写法
function passthru (literals, ... values) { 
  var output = ''; 
  for (var index = 0 ; index < values.length; index++) { 
    output += literals[index] + values [index]; 
    output += literals[index]
  }
  return output ;
}

“标签模板”的一个重要应用就是过滤 HTML 字符串，防止用户输入恶意内容。另一个应用是多语言转换（国际化处理）。

String.raw()

String.raw 方法往往用来充当模板字符串的处理函数，返回一个反斜线都被转义（即反斜线前面再加个反斜线〉的字符串，对应于替换变量后的模板字符串。
如果原字符串中的反斜线已经转义，那么 String.raw 不会做任何处理。
String.raw 方法可以作为处理模板字符串的基本方法，它会将所有变量替换，并对反斜线进行转义，方便下一步作为字符串使用。
String.raw 方法也可以作为正常的函数使用。这时，其第一个参数应该是一个具有 raw属性的对象，且 raw 属性的值应该是一个数组。

String.raw`Hi\n${2+3}`;
// 'Hi\\n5!'
String.raw `Hi\uOOOA!`;
// 'Hi\\uOOOA !'
String.raw`Hi\\n`;
// 'Hi \\n'
String.raw({ raw:'test'}, 0, 1, 2) ; //’ t0e1s2t ’ 
//等同于
String.raw({ raw: ['t' ,'e','s','t' ]} , 0, 1, 2) ;

模板字符串的限制：标签模板中可以内嵌其他语言。但是，模板字符串默认会将字符串转义，导致无法嵌入其他语言。

安歌的博客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符串的扩展

字符串的扩展字符的Unicode表示字符串方法codePointAt()String.fromCodePoint()at()normalize()includes()startsWith()、 endsWith()repeat()padStart()、padEnd()字符串的遍历器接口模板模板字符串标签模板String.raw()字符的Unicode表示字符串方法JavaScript 许采用\uxxxx形式表示一个字符，其中 xxxx 表示字符的 Unicode 码点。但是，，这种表示法只限于码点在\
复制链接

扫一扫