Excel操作大法好啊!
在面对一大堆数据的时候,只需要点击一下工具栏就可以了,轻松筛选自己需要的数据了
对于那些没用的,自己不想要的数据,也可以搜索到并一键去处。
在那些我们不需要的数据中,有一个大类叫做重复数据。
针对这个重复数据,想必操作Excel的朋友们都会经常用,所以Excel工具栏有专门针对去重操作的处理按钮,非常明显。
但是如果让你对着一大堆的Excel表格一直进行去重操作呢?
不知道你们是啥想法,总之我不愿意过这种复读机的生活。
因此我决定用Python来解决这个问题。
在经过一系列的探索之后,我发现Python对Excel进行去重操作也是很友好的,因为里面有着不少相对应的函数可以进行去重操作。
当然,编程能力很强大的朋友甚至可以自己编写一个属于自己的去重操作个性化函数。
但对于像我这种调包侠来说。
调用第三方库是一个很不错的去处。
为了让自己摆脱复读机的日子,我决定使用Python的第三方库——pandas来对Excel进行去重操作。去重操作不难的,使用python对Excel指定sheet进行简单去重操作啦
首先是最简单的去重,没有任何的技术壁垒,用pandas打开想要进行去重操作的Excel表格后,输入函数drop_duplicates()就可以只留下一个并去除掉其他重复的值了。
如果想要高级一点的话,这里也有参数可以进行调配。
没错,就是在drop_duplicates()进行操作就可以了,在括号里面加上几个参数就可以实现心中所想了。
比方说想以其中的一个列或者多列数据作为重复标准判断的话,可以在里面加上subset这个参数,并给他赋值就行了。去重操作简单,但定向复杂,这里有python打开Excel后的具体操作
比方说想将一个列作为重复标准,只需要给subset赋值那一列的标题就行了,记得需要作为字符串的格式进行赋值哦!
要是不满足单列的话,可以进行多列赋值的,这个时候就要采用列表的形式给subset这个参数赋值了。Excel表格去重一个定向不够,那就用python进行多个序列定向
而且,如果还可以对保留的数值进行调控呢。
比方说你想保留的是最开始出现的数据值时,你不需要进行其他操作,因为Python这个第三方库pandas在进行去重操作的时候默认保留的就是最开始出现的那个值。
但如果你想要保留最后一个值的话,你就需要在之前的drop_duplicates()这个函数里面再加上一个参数keep,并且赋值为last,记住,赋值要用字符串的格式。对Excel表格进行去重操作并保留最后一个值,用python来进行超酷
要是你不想保留有重复的值,就是说只要是重复值,你全部都要删掉,那你可以用bool值False赋值,这个就不要采取字符串的格式了,直接赋值就OK了。Excel去重操作后总是保留第一个值,但我用python保留最后一个值
好了,以上内容就是对Python的第三方库pandas对Excel进行去重的大部分操作方法了。
如果你觉得有用的话,希望各位朋友不要吝啬,文章末尾的三连走起来,同时欢迎关注本百家号哦。
本百家号会持续更新的!
要是有其他需要的话,可以后台留言呀!