ECMAScript6简介——字符串的扩展

字符串的扩展

  1. ES6加强了对Unicode的支持,并且扩展了字符串的对象。

字符串的Unicode表示法

  1. JS允许采用\uxxxx形式表示一个字符串,其中xxxx表示字符串Unicode码点。
"\u0061"
//"a"
  1. 但是这种形式只限于码点在\u0000~\UFFFF之间的字符。超出这个范围的字符,必须用两个双字节的形式表示。
"\uD842\uDFB7"
// "𠮷"

"\u20BB7"
// " 7"
  1. 上面的代码表示,如果直接在\u后面跟上超过0xFFFF的数值(比如\u20BB7),JS会理解成\u20BB+7。下面的例子表明,大括号表示法与四字节的UTF-16编码是等价的。
'\u{1F680}' === '\uD83D\uDE80'
// true
  1. JS有6种方法表示一个字符。
'\z' === 'z' //true
'\172'=== 'z' //true
'\x7A' === 'z' //true
'\u007A' === 'z' //true
'\u{7A}' === 'z' //true

codePointAt()

  1. JS内部,字符以UTF-16的格式存储,每个字符固定为2个字节。对于那些需要4个字节储存的字符(Unicode码点大于0xFFFF的字符),JS会认为他们是两个字符。下面代码中,"𠮷"需要四个字节储存,对于这种四个字节的字符,JS不能正确处理,字符串长度会误判为2,而且charAt方法无法读取整个字符,charCodeAt方法只能分别返回前两个字节和后两个字节的值。
var s = "𠮷";

s.length //2
s.charAt(0) //""
s.charAt(1) //""
s.chartCodeAt(0)//55362
s.chartCodeAt(1)//57271

  1. codePointAt方法是测试一个字符由两个字节还是四个字节组成的最简单方法。
function is32Bit(c) {
  return c.codePointAt(0) > 0xFFFF;
}

is32Bit("𠮷") // true
is32Bit("a") // false

String.fromCharCodePoint()

  1. ES5提供String.fromCharCode方法,用于从码点返回对应字符,但是这个方法不能识别32位的UTF-16字符
String.fromCharCode(0x20BB7)
// "ஷ"

字符串的遍历器接口

  1. ES6为字符串添加了遍历器接口,使得字符串可以被for...of循环遍历。下面代码中,字符串text只有一个字符,但是for循环会认为它包含两个字符(都不可打印),而for...of循环会正确识别出一个字符。
for(let codePoint of 'foo'){
	console.log(text[i]);
}
//" "
//" "

for (let i of text){
  console.log(i);
}
// "𠮷"

at()

  1. ES5对字符串提供chartAt方法,返回字符串给定位置的字符。该方法不能识别码点大于0xFFFF的字符。这种方法可以通过垫片库实现。
'abc'.charAt(0) // "a"
'𠮷'.charAt(0) // "\uD842"

normalize()

  1. 许多欧洲语言有语调符号重音符号。为了表示它们,Unicode 提供了两种方法。一种是直接提供带重音符号的字符,比如Ǒ(\u01D1)。另一种是提供合成符号(combining character),即原字符与重音符号的合成,两个字符合成一个字符,比如O(\u004F)和ˇ(\u030C)合成Ǒ(\u004F\u030C)。下面代码中,JavaScript 将合成字符视为两个字符,导致两种表示方法不相等。
'\u01D1'==='\u004F\u030C' //false

'\u01D1'.length // 1
'\u004F\u030C'.length // 2
  1. ES6提供字符串实例的normalize()方法,用来将字符的不同方法统一为同样的形式,这称为Unicode正规化。
'\u01D1'.normalize() === '\u004F\u030C'.normalize()
// true
  1. normalize方法可以接受一个参数来指定normalize的方式,参数的四个可选值分别为:
    - NFC:默认参数,表示"标准等价合成",返回多个简单字符的合成字符。所谓"标准等价"指的是视觉语义上的等价。
    - NFD:表示"标准等价分解",即在标准等价的前提下,返回合成字符分解的多个简单字符。
    - NFKC:表示"兼容等价合成",返回合成字符,所谓"兼容等价“指的是语义上存在的等价,但视觉上不等价,比如"囍"和"喜喜”。(仅为举例,normalize方法不能识别中文。)
    - NFKD:表示"兼容等价分解",即在兼容等价的前提下,返回合成字符分解的多个简单字符。
'\u004F\u030C'.normalize('NFC').length //1
'\u004F\u030C'.normalize('NFD').length //2

注意: normalize()方法目前不能识别三个或三个以上字符的合成。这种情况下,还是只能使用正则表达式,通过Unicode编号区间判断。

includes(),startsWith(),endsWith()

  1. 传统上,JS只有indexof方法,可以用来确定一个字符串是否包含在另一个字符串中,ES6又提供了三种新方法。
  • includes():返回布尔值,表示是否找到了参数字符串
  • startsWith():返回布尔值,表示参数字符串是否在原字符串的头部。
  • endsWith():返回布尔值,表示参数字符串是否在原字符串的尾部。
let s = 'Hello world!';

s.startWith('Hello') //true
s.endsWith('!') //true
s.includes('o') //true
  1. 这三个方法都支持第二个参数,表示开始搜索的位置。使用第二个参数n时,endsWith的行为与其他俩个方法有所不同。它针对前n个字符,而其他两个方法针对从第n个位置直到字符串结束。
let s = 'Hello world!';

s.startWith('world', 6) //true
s.endsWith('Hello' , 5) //true
s.includes('Hello' , 6) //false

repeat()

  1. repeat方法返回一个新字符串,表示将原字符串重复n次。
'x'.repeat(3) //"xxx"
'hello'.repeat(2) //"hellohello"
'a'.repeat(0) //" "
  1. 参数如果是小数,会被取整。
'a'.repeat(2.9) //"aa"
  1. 如果repeat的参数是负数或者Infinity,会报错。
'a'.repeat(Infinity)
// RangeError
'a'.repeat(-2)
// RangeError
  1. 如果参数是0到-1之间的小数,则等同于0,这是因为会先进行取整运算。0到-1之间的小数,取整以后等于-0repeat视同为0。
'a'.repeat(-0.9) //""
  1. 参数NaN等同于0。
'a'.repeat(NaN)
  1. 如果repeat的参数是字符串,则会先转换成数字。
'a'.repeat('a') //""
'a'.repeat('3') //"aaa"

padStart(),padEnd()

  1. ES2017引入了字符串补全长度的功能,如果某个字符串不够指定长度,会在头部或尾部补全。padStart()用于头部补全,padEnd用于尾部补全。
'x'.padStart(5,'ab') //'ababx'
'x'.padStart(4,'ab') //'abax'

'x'.padEnd(5,'ab') //'xabab'
'x'.padEnd(4,'ab') //'xaba'
  1. 上面代码中。padStartpadEnd一共接受两个参数,第一个参数用来指定字符串的最小长度,第二个参数用来补全的字符串。如果原来字符串的长度,等于或大于指定的最小长度,则返回原字符串。
'xxx'.padStart(2,'ab') //'xxx'
'xxx'.padEnd(2,'ab') //'xxx'
  1. 如果用来补全的字符串与原字符串,两者的长度之和超过了指定的最小长度,则会截去超出位数的补全字符串。
'abc'.padStart(10,'0123456789')
//'0123456abc'
  1. 如果省略第二个参数,默认使用空格补全长度。
'x'.padStart(4) //'    x'
'x'.padEnd(4) //'x   '
  1. padStart的常见用途是为数值补全指定位数。下面代码生成10位的数值字符串。
'1'.padStart(10,'0') //"0000000001
'12'.padStart(10,'0') //"0000000012
'123456'.padStart(10,'0') //"0000123456
  1. 另一个用途是提示字符串格式
'12'.padStart(10,'YYYY-MM-DD') //"YYYY-MM-12"
'09-12'.padStart(10, 'YYYY-MM-DD') // "YYYY-09-12"

matchAll()

matchAll方法返回一个正则表达式在当前字符串的所有匹配。

模板字符串

  1. 传统JS语言输出模板相当繁琐不方便。
$('#result').append(
  'There are <b>' + basket.count + '</b> ' +
  'items in your basket, ' +
  '<em>' + basket.onSale +
  '</em> are on sale!'
);
  1. ES6引入模板字符串解决了这个问题。
$('#result').append(`
	  There are <b>${basket.count}</b> items
   in your basket, <em>${basket.onSale}</em>
  are on sale!
`)
  1. 模板字符串是增强版的字符串,用反引号(`)标识。它可以当作普通字符串使用,也可以用来定义多行字符串,或者在字符串中嵌入变量。
// 普通字符串
`In JavaScript '\n' is a line-feed.`

// 多行字符串
`In JavaScript this is
 not legal.`

console.log(`string text line 1
string text line 2`);

// 字符串中嵌入变量
let name = "Bob", time = "today";
`Hello ${name}, how are you ${time}?`
  1. 如果在模板字符串中需要使用反引号,则前面要用反斜杠转义。
let greeting = `\`Yo\`World!`;
  1. 如果使用模板字符串表示多行字符串,所有的空格和缩进都会被保留在输出之中。
$('#list').html(`
<ul>
	<li>1</li>
	<li>2</li>
</ul>
`);
  1. 如果不想用换行,可以使用trim方法消除它。
$('#list').html(`
<ul>
  <li>1</li>
  <li>2</li>
</ul>
`.trim());
  1. 模板字符串中嵌入变量,需要将变量名写在${}之中,大括号内可以放入任意JS表达式,可以进行运算,以及引用对象属性。
let x = 1;
let y = 2;

`${x} + ${y} = ${x + y}`
// "1 + 2 = 3"

`${x} + ${y * 2} = ${x + y * 2}`
// "1 + 4 = 5"

let obj = {x: 1, y: 2};
`${obj.x + obj.y}`
// "3"
  1. 字符串之间还可以调用函数,如果大括号中的值不是字符串,将按照一般的规则转为字符串,比如,一个大括号中是一个对象,将默认调用toString方法。如果模板字符串中的变量没有声明,将报错。
// 变量place没有声明
let msg = `Hello, ${place}`;
// 报错


`Hello ${'World'}`
// "Hello World"
//正确执行
  1. 如果需要引用模板字符串本身,需要这样写。
//方法一
let str = 'return' + '`Hello ${}!`';
let func = new Function('name',str);
func('jack') //"Hello Jack"

//方法二
let str = '(name) => `Hello ${name}!`';
let func = eval.call(null, str);
func('Jack') // "Hello Jack!"

实例:模板编译

  1. 下面我们看一下,通过模板字符串,生成正式模板的实例。
let template = `
<ul>
 <% for (let i = 0; i < data.supplies.length;i++) { %>
 	<li><%= data.supplies[i] %></li>
 	<% } %>
</ul>
` ; 
  1. 上面代码在模板字符串之中,放置了一个常规模板。该模板使用<%...%>放置 JS 代码,使用<%= ... %>输出 JS 表达式。那么如何编译这种模板字符串呢?一种思路是将其转为JS表达式字符串。

标签模板

alert`123`
//等同于
alert(123)
  1. 标签模板其实不是模板,而是函数调用的一种特殊形式。"标签"指的就是函数,紧跟在后面的模板字符串是它的参数。但如果模板字符串有变量,就会先将模板字符串先处理成多个参数,再调用函数。下面代码中,模板字符串前面有一个标识名tag,它是一个函数。整个表达式的返回值,就是tag函数处理模板字符串后的返回值。
let a = 5;
let b = 10;

tag`Hello ${ a + b } world ${ a * b }`;
// 等同于
tag(['Hello ', ' world ', ''], 15, 50);
  1. 函数tag依次会接收到多个参数。变量替换只发生在数组的第一个成员与第二个成员之间、第二个成员与第三个成员之间,以此类推。tag函数的其他参数,都是模板字符串各个变量被替换后的值。由于本例中,模板字符串含有两个变量,因此tag会接受到value1value2两个参数。
function tag(stringArr, value1, value2){
  // ...
}
// 等同于
function tag(stringArr, ...values){
  // ...
}
  • tag函数所有参数的实际值如下。
    • 第一个参数:['Hello ', ' world ', '']
    • 第二个参数: 15
    • 第三个参数:50
  1. 标签模板”的一个重要应用,就是过滤 HTML 字符串,防止用户输入恶意内容。
  2. 标签模板的另一个应用,就是多语言转换(国际化处理)。
  3. 模板处理函数的第一个参数(模板字符串数组),还有一个raw属性。下面console.log接受的参数,实际上是一个数组。该数组有一个raw属性,保存的是转义后的原字符串。
console.log`123`
// ["123", raw: Array[1]]
  1. 下面代码中,两者唯一的区别,就是字符串里面的斜杠都被转义了。比如,strings.raw 数组会将\n视为\和n两个字符,而不是换行符。这是为了方便取得转义之前的原始模板而设计的。
tag`First line\nSecond line`
function tag(strings) {
  console.log(strings.raw[0]);
  // strings.raw[0] 为 "First line\\nSecond line"
  // 打印输出 "First line\nSecond line"
}

String.raw()

  1. ES6还为原生的String对象,提供了一个raw方法。

  2. String.raw方法,往往用来充当模板字符串的处理函数,返回一个斜杠都被转义的字符串,对应于替换变量后的模板字符串。

String.raw`Hi\n${2+3}!`;
//发回 "Hi\\n5!"

String.raw`Hi\u000A!`;
//返回"Hi\\u000A!"
  1. String.raw方法也可以作为正常的函数使用。这时,它的第一个参数,应该是一个具有raw属性的对象,且raw属性的值应该是一个数组。
String.raw({ raw: 'test' }, 0, 1, 2);
// 't0e1s2t'

// 等同于
String.raw({ raw: ['t','e','s','t'] }, 0, 1, 2);

模板字符串的限制

  1. 模板字符串默认会将字符串转义,导致无法嵌入其他语言。
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值