中文排序问题
最近做项目时发现mysql查询结果为中文时,按照中文排序时会出现不符合字典顺序的情况
在数据库之中添加了五条记录,实际的排序应该为[你, 他, 它, 她, 我],但mysql查询结果却是[他, 你, 她, 它, 我]
排序不符合字典顺序。
后来在Java之中发现
List<String> list = Arrays.asList("他", "她", "它", "你", "我");
Collections.sort(list);
System.out.println(list.toString());
上面代码执行结果为[他, 你, 她, 它, 我],而将上面代码改为如下
List<String> list = Arrays.asList("他", "她", "它", "你", "我");
Collections.sort(list, Collator.getInstance(Locale.CHINESE));
//Collections.sort(list, Collator.getInstance(Locale.CHINA));
System.out.println(list.toString());
执行结果变为[你, 他, 它, 她, 我]
原来在mysql中,进行中文排序和查找的时候,对汉字的排序和查找结果是错误的。出现这个问题的原因是:mysql在查询字符串时是大小写不敏感的,在编绎mysql时一般以ISO-8859字符集作为默认的字符集,因此在比较过程中中文编码字符大小写转换造成了这种现象。
解决方法:
1、排序字段采用显示转换成gb2312或者gbk(gbk支持的中文更全面一点)
convert(字段名称 using gb2312[gbk]) collate gb2312_bin[gbk_bin]
或者
cast( 字段名称 as CHAR character set gb2312[gbk]) collate gb2312_bin[gbk_bin]
即可,但只是治标不治本的方法,直接在order by之中进行转换
注意这里gbk_bin如果写成gbk_chinese_ci排序还是有问题
gbk_chinese_ci简体中文, 不区分大小写
gbk_bin简体中文, 二进制
2、可以直接将数据库编码设为gb2312或者gbk,但应该注意这样修改不会导致其他问题,如页面显示等
详细可以参见http://blog.donews.com/jenniferweng/archive/2006/08/07/991039.aspx
在默认情况下,计算机排序时,比较两个字符的大小就是比较字符内码的大小,这对于英文来说没有问题,因为英文字母的内码是按字母顺序递增的。对于中文来说,就比较麻烦了:首先,中文的排序方式有多种,比如按内码排序、按拼音排序和按笔画排序,要通过参数指定排序的方式,否则计算机就按内码排序了。其次,汉字的内码顺序即不同于拼音顺序,也不同于按笔画顺序。在GB2312编码中,汉字基本上按拼音排序(据说有例外,不太清楚)。在GBK中,它在GB2312基础上进行了扩充,兼容GB2312中的所有字符,所以不是按拼音排序了。在Unicode中,汉字的排列似乎更没有什么规律可言了。
[你, 他, 它, 她, 我]分别按照gb2312、gbk、utf-8、utf-16、utf-32编码之后如下
你 c4e3 c4e3 e4bda0 feff4f60 00004f60
他 cbfb cbfb e4bb96 feff4ed6 00004ed6
它 cbfc cbfc e5ae83 feff5b83 00005b83
她 cbfd cbfd e5a5b9 feff5979 00005979
我 ced2 ced2 e68891 feff6211 00006211
而汉字排序基本是按照编码后结果来进行。
从编码后结果可以看出编码不同,排序结果也不同,只有按照gb2312及gbk编码结果排序才基本正确
具体编码参见Unicode实现方式,
也就是说采用unicode编码后的中文不一定是两个字节,因此统计中文字节数时一定要指定编码格式,否则按照系统默认编码可能统计结果不正确