避坑系列:sort命令
sort作为linux下的常用命令,在处理含有中文字符的文件时,使用sort可能会无效。
例如,文件a.txt的内容如下:
$ cat a.txt你好
你好
测试
真好玩
啊啊
你好
这是一个测试
让我们对文件a进行排序,看看会发生什么。
呀!排序后的结果好像并不对?
$sort a
你好
测试
啊啊
你好
真好玩
这是一个测试
别急,让我们再来搭配uniq试一下。
结果更离谱了,不仅没有实现去重,还出现了数据丢失的情况:
$sort a | uniq
你好
真好玩
这是一个测试
哼哧哼哧忙活了半天,却发现结果不对,要是这时候正好别人过来找你要这份数据,你说你慌不慌?
这是为啥呢?
先说解决方案,正确的方式应该是:
LC_ALL=C sort a.txt | LC_ALL=C uniq
或者
export LC_ALL=C sort a.txt | uniq
让我们一起看一下ÿ