之前在SQLSERVER2005中用过一个nvarchar(20)的数据格式,结果一直以为是只能输入10个汉字,结果有一天查看数据库的时候,超过了10个,竟然没有报错,有点疑惑。按道理说是char类型的表示1个字节,而且汉字又是2个字节表示的,因此就有点疑惑?
经过查询资料得知,在数据库或者java中汉字都是以UNICODE的方式编码的,2个字节,也就是一个字符。现在在sqlserver2005中做如下实验:
新建表test_char
id char(10),id1 nchar(10) ,id2 varchar(10) ,id3 nvarchar(10);
id char中只能存放5个汉字(10个字节,5个字符),多的话会进行截取,少的或会以空格填充;
id1 nchar 中可以放置10个汉字(也就是10个字符),因为这里使用了Unicode编码,默认存放10个字符,字节数的话就是10*2 =20 个
id2 varchar中也可以放置5个汉字,(5个字符,也就是10个字节),后面还会附加一个字符长度表示其长度的
id3 nvarchar中可以放置10个汉字(10个字符,20个字节),最后面也有一个附加的表示其长度的
其他知识可以参考下面仁兄的内容
http://www.cnblogs.com/carekee/articles/2094676.html
此外附上一段用正则表达式验证是否是中文的代码
private static final String CHINESE = "[\u4e00-\u9fa5]";
public static void show(String s){
int len = s.length();
int chineseCount = 0; //中文个数
for(int i = 0;i < len;i ++){
String tem = String.valueOf(s.charAt(i));
System.out.println("string:"+tem+",char:"+s.charAt(i));
if(tem.matches(CHINESE))
chineseCount ++;
}
}