mysql中文排序问题

中文排序问题  

 最近做项目时发现mysql查询结果为中文时,按照中文排序时会出现不符合字典顺序的情况

在数据库之中添加了五条记录,实际的排序应该为[你, 他, 它, 她, 我],但mysql查询结果却是[他, 你, 她, 它, 我]

排序不符合字典顺序。

后来在Java之中发现

List<String> list = Arrays.asList("他", "她", "它", "你", "我");
Collections.sort(list);
System.out.println(list.toString());

上面代码执行结果为[他, 你, 她, 它, 我],而将上面代码改为如下

List<String> list = Arrays.asList("他", "她", "它", "你", "我");
Collections.sort(list, Collator.getInstance(Locale.CHINESE));
//Collections.sort(list, Collator.getInstance(Locale.CHINA));
System.out.println(list.toString());

执行结果变为[你, 他, 它, 她, 我]

 

原来在mysql中,进行中文排序和查找的时候,对汉字的排序和查找结果是错误的。出现这个问题的原因是:mysql在查询字符串时是大小写不敏感的,在编绎mysql时一般以ISO-8859字符集作为默认的字符集,因此在比较过程中中文编码字符大小写转换造成了这种现象。

解决方法:

1、排序字段采用显示转换成gb2312或者gbk(gbk支持的中文更全面一点)

convert(字段名称 using gb2312[gbk]) collate gb2312_bin[gbk_bin]

或者

cast( 字段名称 as CHAR character set gb2312[gbk]) collate gb2312_bin[gbk_bin]

即可,但只是治标不治本的方法,直接在order by之中进行转换

注意这里gbk_bin如果写成gbk_chinese_ci排序还是有问题

gbk_chinese_ci简体中文, 不区分大小写

gbk_bin简体中文, 二进制

2、可以直接将数据库编码设为gb2312或者gbk,但应该注意这样修改不会导致其他问题,如页面显示等

详细可以参见http://blog.donews.com/jenniferweng/archive/2006/08/07/991039.aspx

 

在默认情况下,计算机排序时,比较两个字符的大小就是比较字符内码的大小,这对于英文来说没有问题,因为英文字母的内码是按字母顺序递增的。对于中文来说,就比较麻烦了:首先,中文的排序方式有多种,比如按内码排序、按拼音排序和按笔画排序,要通过参数指定排序的方式,否则计算机就按内码排序了。其次,汉字的内码顺序即不同于拼音顺序,也不同于按笔画顺序。在GB2312编码中,汉字基本上按拼音排序(据说有例外,不太清楚)。在GBK中,它在GB2312基础上进行了扩充,兼容GB2312中的所有字符,所以不是按拼音排序了。在Unicode中,汉字的排列似乎更没有什么规律可言了。

[你, 他, 它, 她, 我]分别按照gb2312、gbk、utf-8、utf-16、utf-32编码之后如下

你 c4e3 c4e3 e4bda0 feff4f60 00004f60
他 cbfb cbfb e4bb96 feff4ed6 00004ed6
它 cbfc cbfc e5ae83 feff5b83 00005b83
她 cbfd cbfd e5a5b9 feff5979 00005979
我 ced2 ced2 e68891 feff6211 00006211

而汉字排序基本是按照编码后结果来进行。

从编码后结果可以看出编码不同,排序结果也不同,只有按照gb2312及gbk编码结果排序才基本正确

具体编码参见Unicode实现方式

也就是说采用unicode编码后的中文不一定是两个字节,因此统计中文字节数时一定要指定编码格式,否则按照系统默认编码可能统计结果不正确

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值