linux sort去重与pandas去重的不同

第一篇博客献给跟我一样的linux初学者们~

先看一下我们的数据

^I是tab键,$为回车

pandas会自动忽略空行,会把空格当做一个字符

df.drop_duplicates([0],inplace=True)

去重的结果:第一行被忽略了,多个NaN和多个空格被去重,带空格的和ab和不带空格的ab被区分出来

先看一下使用sort去重的语法

sort [-bcdfimMnr][-o<输出文件>][-t<分隔字符>][+<起始栏位>-<结束栏位>][--help][--verison][文件]
  • -t选项,后面可以设定间隔符。
  • -k 指定从第几列到第几列作为去重标准,只写一个数默认为以从它开始到一行结束作为去重标准。
  • -u 选项它的作用很简单,就是在输出行中去除重复行。
 sort -t $'\t' -u -k1,1 test.txt

去重的结果:空行被保留,nan被去掉,空格被去重

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值