之前实现了一个
python 实现中文转拼音、中文排序的方法
中文转拼音,可以籍此实现中文按照首字母的排序,最近在使用mysql查询的时候也需要对中文进行排序,上网查的时候发现不用那么麻烦。
原理
在不需要拼音只需要根据拼音字母排序的情况下,gbk编码的顺序就已经是按照拼音顺序排的,
那么不管在什么语言中,只要按照排序文本的gbk编码进行排序就ok了。
例
mysql
- 如果数据库表字段的字符编码是gbk,则直接使用目标字段排序就可以了;
- 如果数据库表字段的字符编码是其他编码,比如utf8,那么在排序的order by后面对目标字段进行编码转换,转换为gbk编码,例如
SELECT * FROM `table_name` ORDER BY CONVERT(`field_name` using gbk);
python
python3的字符编码已经统一为unicode,直接可以转换为需要的编码
>>> str_list = list('汉字按照拼音字母排序')
>>> str_list
['汉', '字', '按', '照', '拼', '音', '字', '母', '排', '序']
>>> str_list.sort(key=lambda x:x.encode('gbk'))
>>> str_list
['按', '汉', '母', '排', '拼', '序', '音', '照', '字', '字']