java采用unicode编码,char类型为2个字节,可以存放一个汉字,以下方法可用来判断char变量为哪种字符。
- enum CharType{
- DELIMITER, //非字母截止字符,例如,.)( 等等 ( 包含U0000-U0080)
- NUM, //2字节数字1234
- LETTER, //gb2312中的,例如:ABC,2字节字符同时包含 1字节能表示的 basic latin and latin-1 OTHER,// 其他字符
- CHINESE;//中文字
- }
- /**
- * 判断输入char类型变量的字符类型
- * @param c char类型变量
- * @return CharType 字符类型
- */
- private CharType checkType(char c){
- CharType ct =null;
- //中文,编码区间0x4e00-0x9fbb if ((c >=
- 0x4e00)&&(c <= 0x9fbb)){ ct = CharType.CHINESE; }
- //Halfwidth and Fullwidth Forms, 编码区间0xff00-0xffef
- else if ( (c >= 0xff00) &&(c <= 0xffef)) { // 2字节英文字
- if ((( c >= 0xff21 )&&( c <= 0xff3a)) || (( c >= 0xff41 )&&( c
- <= 0xff5a))){ ct = CharType.LETTER; }
- //2字节数字 else if (( c >=
- 0xff10 )&&( c <= 0xff19) ){ ct = CharType.NUM; }
- //其他字符,可以认为是标点符号
- else ct = CharType.DELIMITER; }
- //basic latin,编码区间 0000-007f else if ( (c
- >= 0x0021) &&(c <= 0x007e)){ //1字节数字 if (( c >= 0x0030 )&&(
- c <= 0x0039) ){ ct = CharType.NUM; } //1字节字符 else if ((( c
- >= 0x0041 )&&( c <= 0x005a)) || (( c >= 0x0061 )&&( c <=
- 0x007a))) { ct = CharType.LETTER; }
- //其他字符,可以认为是标点符号 else ct = CharType.DELIMITER; }
- //latin-1,编码区间0080-00ff else if ( (c >=
- 0x00a1) &&(c <= 0x00ff)){ if (( c >= 0x00c0 )&&( c <= 0x00ff)){
- ct = CharType.LETTER; } else ct = CharType.DELIMITER; } else ct
- = CharType.OTHER;
- return ct;
- }