今天遇到一个怪事,记录下来。
一个文本有很多中文单词。例如文本为 xx
sort xx 不能把相同的中文排在一起,有些是对的,有些是错的。
例如:
XXX
XXX
90后
XXX
XXX
90后
XXX
90后
XXX
排序后,应该得到
XXX
90后
90后
90后
XXX
但结果可能是
XXX
90后
XXX
90后
90后
XXX
出现这个问题应该是有字符集造成。
我做了如下的修改,得到了正确的结果
我原来的配置
export LANG="zh_CN.UTF-8"
export LC_ALL="zh_CN.GBK"
修改后得到正确答案的配置
export LANG="zh_CN.UTF-8"
export LC_ALL="zh_CN.UTF-8"
要将LANG和LC_ALL统一起来,我暂时只知道这样改得到正确结果,来不及详细研究,就写到这里。