判断当前字符是单字节还是双字节

//判断当前字符是单字节还是双字节

1、判断当前字符编码大于255

String.prototype.lengthB = function(){

var b = 0;

var l = this.length;

if(l){

for (var i = 0; i < l; i++) {

if(this.charCodeAt(i)>255){

console.log("双字节");

b+=2;

}else{

console.log("单字节");

b++;

}

};

return b;

}else{

return 0;

}

}

var s = "我";

console.log(s.lengthB());  //2

2、如果字符转义序列大于4位,则说明是双字节

String.prototype.lengthB = function(){

var b = 0;

var l = this.length;

if(l){

for (var i = 0; i < l; i++) {

var c = this.charAt(i);

if(escape(c).length>4){

b+=2;

}else if(c != "\r"){

b++;

}

};

return b;

}else{

return 0;

}

}

var s = "123";

console.log(s.lengthB());  //3

3、使用正则表达式,匹配单字节字符

String.prototype.lengthB = function(){

var b = 0;

var l = this.length;

if(l){

for (var i = 0; i < l; i++) {

var c = this.charAt(i);

if(/^[\u0000 - \u00ff]$/.test(c)){

b++;

}else{

b+=2;

}

};

return b;

}else{

return 0;

}

}

var s = "我我";

console.log(s.lengthB()); //4

应用


   /*************************************************************************

        * DESC:主要是用来判断当前输入的字节数,以便做到限制输入标题的长度功能

        **************************************************************************/

        var matchWords;

        function notifyTextLength() {

            var inputNum = document.getElementById("txtTitle").value.replace(/[^\x00-\xff]/g, "**").length; //得到输入的字节数

            if (inputNum <= 200) {

                matchWords = document.getElementById("txtTitle").value.length;

                document.getElementById("inputedWord").innerHTML = inputNum + "字节," + matchWords + "字符";

                document.getElementById("inputtingWord").innerHTML = (200 - inputNum) + "字母,"+(Math.round(((200-inputNum)/2)-0.5))+"汉字";

            }

            if (inputNum > 200) {

                    document.getElementById("txtTitle").value = document.getElementById("txtTitle").value.substring(0, matchWords);  //如果超过200字节,就截取到200字节

                }

               

        }


转载于:https://my.oschina.net/u/1579617/blog/515899

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
<> 一些背景知识: 1. 一个汉字在c\c++的存储, 使用2个字节(char)存储; 2. 汉字存储的第一个char, 其值一定大于'~'(0111 1110=126),否则将导致识别歧义; 此处, 使用"单ASCII字符"来表示非 单ASCII字符判断, 可以根据以下规则(主要R3, R4); : 一个字符串的长度==1,那肯定是一个ASCII字符; : 一个字符串的长度==2,且第1个ASCII字符的编码小于'~'; 那肯定是2个单ASCII字符; -- (PS: "") : 一个字符串的长度==3,且中间的ASCII字符的编码小于'~'; 那第3个肯定是单ASCII字符; (前2个是否构成1个汉字不能确定) : (基于R3)如果第pos个位置的ASCII字符编码小于'~', 那从下标pos,pos+1处拆分字符串 (下标pos归前串),将不会导致乱码; A 或者 B 的选择,需要知道以下信息: (1). 从 cut_base_pos 开始到 pos_B 结束的这段字符串内, 最后一个单ASCII字符的结束下标 p 在此基础上, 若使用: y -- 表示单ASCII字符(已确定的); x -- 表示可能是 单ASCII字符,也可能是 汉字的半个ASCII存储码; 那么一段长度为N的字符串,按照存储的ASCII码可以表示为一串如下的字符串(不包含[]) "x .. x][x .. x y x .. x][x .. x", 其中 s,e表示当前正在分析的一段子串(0<=s<e<=N, 下标e-s = 期望的分割长度cut_size) ^ ^ ^ ^ ^ 0 s p e N 在 【s, e】 之间, 查找结束下标p 的思路: 从e开始向s查找, 找到 第一个y 后 break; 记录下标p, 则从位置p开始, 是一个正确的分割(cut); 但此分割并不是一个最好的分割. 可以在 位置p上, 再加上 2K 个长度, 使 p+2K 与 pos_B 最接近即可. 可以认为从2K个长度的内容是K个汉字(实际上并不一定..), 但并不影响这个最佳分割的正确性! :)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值