mysql中文排序问题

最新推荐文章于 2024-07-22 12:56:45 发布

Rookie__Li

最新推荐文章于 2024-07-22 12:56:45 发布

阅读量1.4k

点赞数

分类专栏： mysql 文章标签： mysql 编码中文排序

mysql 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

中文排序问题

最近做项目时发现mysql查询结果为中文时，按照中文排序时会出现不符合字典顺序的情况

在数据库之中添加了五条记录，实际的排序应该为[你, 他, 它, 她, 我]，但mysql查询结果却是[他, 你, 她, 它, 我]

排序不符合字典顺序。

后来在Java之中发现

List<String> list = Arrays.asList("他", "她", "它", "你", "我");
Collections.sort(list);
System.out.println(list.toString());

上面代码执行结果为[他, 你, 她, 它, 我]，而将上面代码改为如下

List<String> list = Arrays.asList("他", "她", "它", "你", "我");
Collections.sort(list, Collator.getInstance(Locale.CHINESE));
//Collections.sort(list, Collator.getInstance(Locale.CHINA));
System.out.println(list.toString());

执行结果变为[你, 他, 它, 她, 我]

原来在mysql中，进行中文排序和查找的时候，对汉字的排序和查找结果是错误的。出现这个问题的原因是：mysql在查询字符串时是大小写不敏感的，在编绎mysql时一般以ISO-8859字符集作为默认的字符集，因此在比较过程中中文编码字符大小写转换造成了这种现象。

解决方法：

1、排序字段采用显示转换成gb2312或者gbk（gbk支持的中文更全面一点）

convert(字段名称 using gb2312[gbk]) collate gb2312_bin[gbk_bin]

或者

cast( 字段名称 as CHAR character set gb2312[gbk]) collate gb2312_bin[gbk_bin]

即可，但只是治标不治本的方法，直接在order by之中进行转换

注意这里gbk_bin如果写成gbk_chinese_ci排序还是有问题

gbk_chinese_ci简体中文, 不区分大小写

gbk_bin简体中文, 二进制

2、可以直接将数据库编码设为gb2312或者gbk，但应该注意这样修改不会导致其他问题，如页面显示等

详细可以参见http://blog.donews.com/jenniferweng/archive/2006/08/07/991039.aspx

在默认情况下，计算机排序时，比较两个字符的大小就是比较字符内码的大小，这对于英文来说没有问题，因为英文字母的内码是按字母顺序递增的。对于中文来说，就比较麻烦了：首先，中文的排序方式有多种，比如按内码排序、按拼音排序和按笔画排序，要通过参数指定排序的方式，否则计算机就按内码排序了。其次，汉字的内码顺序即不同于拼音顺序，也不同于按笔画顺序。在GB2312编码中，汉字基本上按拼音排序（据说有例外，不太清楚）。在GBK中，它在GB2312基础上进行了扩充，兼容GB2312中的所有字符，所以不是按拼音排序了。在Unicode中，汉字的排列似乎更没有什么规律可言了。

[你, 他, 它, 她, 我]分别按照gb2312、gbk、utf-8、utf-16、utf-32编码之后如下

你 c4e3 c4e3 e4bda0 feff4f60 00004f60
他 cbfb cbfb e4bb96 feff4ed6 00004ed6
它 cbfc cbfc e5ae83 feff5b83 00005b83
她 cbfd cbfd e5a5b9 feff5979 00005979
我 ced2 ced2 e68891 feff6211 00006211

而汉字排序基本是按照编码后结果来进行。

从编码后结果可以看出编码不同，排序结果也不同，只有按照gb2312及gbk编码结果排序才基本正确

具体编码参见Unicode实现方式，

也就是说采用unicode编码后的中文不一定是两个字节，因此统计中文字节数时一定要指定编码格式，否则按照系统默认编码可能统计结果不正确