String.length:
该属性返回字符串中字符编码单元的数量。JavaScript 使用 UTF-16 编码,该编码使用一个 16 比特的编码单元来表示大部分常见的字符,使用两个代码单元表示不常用的字符(高位编码单元)。因此 length 返回值可能与字符串中实际的字符数量不相同。MDN => String.length
高位编码单元 是使用一对(低位编码(lower valued))代理伪字符("surrogate" pseudo-characters)来表示,从而构成一个真正的字符。String.prototype.charCodeAt()
function strLen ( str ) {
var len = 0,
ret = 0,
i = 0,
code,
nextCode;
if ( str == null ) return ret;
str = String( str );
len = str.length;
if ( len == 0 ) return ret;
for (;i < len; i++ ) {
code = str[i].charCodeAt(0);
if ( code >= 0xD800 && code <= 0xDBFF ) {
nextCode = str[i + 1].charCodeAt(0);
if ( nextCode >= 0xDC00 && nextCode <= 0xDFFF ) i++;
}
ret++;
}
return ret;
}
var str = '?';
str.length; // 2
strLen( str ); // 1
// ES6方法
function codePointLength (text) {
var result = text.match(/[\s\S]/gu);
return result ? result.length : 0;
}
编译后:
function codePointLength (text) {
var result = text.match(/(?:[\0-\uD7FF\uE000-\uFFFF]|[\uD800-\uDBFF][\uDC00-\uDFFF]|[\uD800-\uDBFF](?![\uDC00-\uDFFF])|(?:[^\uD800-\uDBFF]|^)[\uDC00-\uDFFF])/g);
return result ? result.length : 0;
};
or
// ES6
function length(str) {
return [...str].length;
}