一、字符的Unicode 表示方法
ES6 加强了对 Unicode 的支持,允许采用\uxxxx 形式表示一个字符,其中 xxxx表示字符的 Unicode 码点。
"\u0061"
// "a"
这种表示方法只限于码点在 \u0000~\uFFFF之间的字符。超出范围的字符,必须用两个双字节的形式表示。
"\uD842\uDFB7"
// "𠮷"
"\u20BB7"
// " 7"
如上述代码所示。在\u后面跟上超过 0xFFFF 的数值(比如 \u28BB7),JavaScript会理解成
\u20BB+7。由于\u20BB是一个不可打印的字符,所以只会显示一个空格。
ES6 对这一点做出了改进,只需要将码点放入花括号,就能正确解读该字符。
"\u{20BB7}"
// "𠮷"
"\u{41}\u{42}\u{43}"
// "ABC"
let hello = 123;
hell\u{6F} // 123
'\u{1F680}' === '\uD83D\uDE80'
// true
最后一段代码表明,大括号表示法与四字节的 UTF-16 编码是等价的。
二、字符串的遍历器接口
ES6为字符串添加了遍历器接口,使得字符串可以被 for...of 循环遍历。
for (let codePoint of 'foo') {
console.log(codePoint)
}
// "f"
// "o"
// "o"
这个遍历器最大的优点就是可以识别大于 0xFFFF 的码点,而传统的 for 循环无法识别。
let text = string.fromCodePoint(0x20BB7);
for (let i = 0; i < text.length; i++) {
console.log(text[i]);
}
// " "
// " "
for (let i of text) {
console.log(i);
}
// "𠮷"
上述代码中,字符串 text只有一个字符,但是 for循环会认为它包含两个字符所以都不可以打印,而for...of 循环会正确的识别出这个字符。
三、直接输入 U+2028(行分隔符) 和 U+2029(段分隔符)
JavaScript 字符串允许直接输入字符,以及出入字符的转义形式。
'中' === '\u4e2d' // true
JavaScript 规定有五个字符不能在字符串里面直接使用,只能使用转义形式。
- U+005C:反斜杠
- U+000D:回车
- U+2028:行分隔符
- U+2029:段分隔符
- U+000A:换行符
而ES2019 允许 JavaScript 字符串直接输入 U+2028(行分隔符)和 U+2029(段分隔符)。
const PS = eval("'\u2029);
另外要注意的是,模板字符串现在就允许直接输入这两个字符。但是正则表达式依然不允许直接输入这个两个字符,因为 JSON 本来就不允许直接包含正则表达式。
四、JSON.stringify() 的改造
JSON 数据必须是 UTF-8 编码。但是现在的 JSON.stringify() 方法有可能返回 不符合 UTF-8 标准的字符串。
它可能返回0xD800到0xDFFF 之间的单个码点。
JSON.stringify('\u{D834}')
// "\u{D834}"
为了确保返回的是合法的 UTF-8字符, ES2019 改变了 JSON.stringify() 的行为。如果遇到
0xD800到0xDFFF之间的单个码点,或者不存之的