避坑系列:sort命令处理中文数据的问题

避坑系列:sort命令sort作为linux下的常用命令,在处理含有中文字符的文件时,使用sort可能会无效。例如,文件a.txt的内容如下:$ cat a.txt你好你好测试真好玩啊啊你好这是一个测试让我们对文件a进行排序,看看会发生什么。呀!排序后的结果好像并不对?$sort a你好测试啊啊你好真好玩这是一个测试别急,让我们再来搭配uniq试一下。结果更离谱了,不仅没有实现去重,还出现了数据丢失的情况:$sort a | ...
摘要由CSDN通过智能技术生成

 

 

避坑系列:sort命令

sort作为linux下的常用命令,在处理含有中文字符的文件时,使用sort可能会无效。

例如,文件a.txt的内容如下:

$ cat a.txt你好
你好
测试
真好玩
啊啊
你好
这是一个测试

让我们对文件a进行排序,看看会发生什么。

呀!排序后的结果好像并不对?

$sort a
你好
测试
啊啊
你好
真好玩
这是一个测试

别急,让我们再来搭配uniq试一下。

结果更离谱了,不仅没有实现去重,还出现了数据丢失的情况:

$sort a | uniq
你好
真好玩
这是一个测试

哼哧哼哧忙活了半天,却发现结果不对,要是这时候正好别人过来找你要这份数据,你说你慌不慌?

                                                        

这是为啥呢?

先说解决方案,正确的方式应该是:

LC_ALL=C sort a.txt | LC_ALL=C u
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值