pandas versus Excel 学习笔记15(消除重复数据、旋转数据表、读取文件)

这篇博客介绍了如何使用pandas进行数据处理,包括删除重复数据,通过drop_duplicates()函数实现;查看重复数据,利用结果为bool型的Series;旋转数据表以进行行/列转换;以及读取CSV、TSV和TXT文件的数据,使用read_csv函数读取。
摘要由CSDN通过智能技术生成

目录

 删除重复数据

获取哪些是重复数据

旋转数据表(行/列转换)

读取CSV、TSV、TXT文件中的数据


 

 删除重复数据

students.drop_duplicates()

students.drop_duplicates(subset='Name',inplace=True,keep='first')#keep选择表示删除前面或后面的数据
print(students)

如果要基于多列删除,subset=['xx','yy']  给一个list

dupe=students.duplicated(subset='Name')
print(dupe)

结果:True表示“是重复数据”

18    False
19    False
20    False
21     True
22     True
23     True
24     True
25     True
dtype: bool

是一个bool型的series

是否存在重复数据

print(dupe.any())

结果:

True  #表示存在重复数据

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值