第一篇博客献给跟我一样的linux初学者们~
先看一下我们的数据
^I是tab键,$为回车
pandas会自动忽略空行,会把空格当做一个字符
df.drop_duplicates([0],inplace=True)
去重的结果:第一行被忽略了,多个NaN和多个空格被去重,带空格的和ab和不带空格的ab被区分出来
先看一下使用sort去重的语法
sort [-bcdfimMnr][-o<输出文件>][-t<分隔字符>][+<起始栏位>-<结束栏位>][--help][--verison][文件]
- -t选项,后面可以设定间隔符。
- -k 指定从第几列到第几列作为去重标准,只写一个数默认为以从它开始到一行结束作为去重标准。
- -u 选项它的作用很简单,就是在输出行中去除重复行。
sort -t $'\t' -u -k1,1 test.txt
去重的结果:空行被保留,nan被去掉,空格被去重