字符、字节

一、通过getBytes("")获取各编码格式下的字符长度

字符指一个字母或一个字或一个标点或一个符号,不一定几个字节,看情况定,编码格式不同,每个字符所占字节不同
[table]

| 类型 | GBK(字节) | UTF-8(字节) |
| 字母数字 | 1 | 1 |
| 汉字 | 2 | 3 |
| 全角标点 | 2 | 3 |
| 半角标点 | 1 | 1 |

[/table]

1.String length();//字符的长度

如:

String str = "中文123" ;
int len = str.length;// len =5 ;

为字符长度,因为 其采用 Unicode 编码形式,存储的是 每个字符在 编码集合中的 编号(在内存中 每两个字节存储一个编号)

2.length ;//字节的长度

如:

bytes [] byte = str.getBytes();
int lent = byte.length; // 字节长度 ,



java代码:

String name = "人1z,。";// 汉字 数字 字母 半角 全角
try {
byte [] test = name.getBytes("GBK");
System.out.println(""+name.length()+" " +test.length); // 7 = 2 + 1 + 1 + 1 + 2
byte [] test1 = name.getBytes("UTF-8");
System.out.println(""+name.length()+" " +test1.length);// 9 = 3 + 1 + 1 + 1 + 3
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}


数据表中对应的varchar char 类型 对应字符的长度 而不是字节的长度



String str = "汉";
byte[] bytes = str.getBytes("Unicode");
for(int index = 0 ; index < bytes.length ; index++){
System.out.println(bytes[index]);
}
System.out.println(bytes.length);


二、getBytes("Unicode") 相关工具类分析
Unicode 表示一个汉字用两个字节;
此处输出长度为4;
-2
-1
108
73

前两为为顺序表示;大头、小头;
[url]http://blog.csdn.net/lcfeng1982/article/details/6830584[/url]



// 通过 length 即 字节长度截取指定长度的字符串,excepLength 为截取出现问题时的最低截取长度
public static String bSubstring(String s, int length, int excepLength) {
try {
s = s.replaceAll("\\s*", "");
byte[] bytes = s.getBytes("Unicode"); // Unicode 默认按照UnicodeLittleUnmarked 小头规则,一个字符两个字节表示,高位在第二个字节的位置
// 一个字符串总在第一个字符的编码前面加上编码顺序的标识
int n = 0; // 表示当前的字节数
int i = 2; // 要截取的字节数,从第3个字节开始
// 0 1 2 按照数组下标的顺序取值;前两位为顺序标识,即告知系统当前的编码顺序时小头;系统默认处理
// 英文数字编码:高位为0;汉字高低位都不为0
// 当前系统按照Unicode取编码结果,默认按照大头顺序,即高位在前
// 从第三个字节开始,即i=2处开始,所以else 上判断是否为0,为0表示当前为ASCII中的值
for (; i < bytes.length && n < length; i++) {
// 奇数位置,如3、5、7等,为UCS2编码中两个字节的第二个字节
// 从 2 开始,奇数位加一,偶数为不为0加一,length 指字节的长度,而不是字符的长度;
// i 是当前的数组下标
if (i % 2 == 1) {
n++; // 在UCS2第二个字节时n加1
} else {
// 当UCS2编码的第一个字节不等于0时,该UCS2字符为汉字,一个汉字算两个字节
if (bytes[i] != 0) {
n++;
}
}
}
// 如果i为奇数时,处理成偶数
if (i % 2 == 1) { // 为奇数即字符串中含有数字字母,偶数个,此处灵活配置,因为两个字符标识一个字符,只是强制判断当前是汉字且只有一位,舍弃
// 该UCS2字符是汉字时,去掉这个截一半的汉字
if (bytes[i - 1] != 0)
i = i - 1;
// 该UCS2字符是字母或数字,则保留该字符
else
i = i + 1;
}
return new String(bytes, 0, i, "Unicode");
} catch (Exception e) {
JrdLogManager.runLog(Level.ERROR, "bSubstring exception :" + e);
return s.replaceAll("\\s*", "").length() > excepLength ? s.replaceAll("\\s*", "").substring(0, excepLength) : s;
}
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值