总结一下利用pandas进行条件筛选的几个方法

最新推荐文章于 2024-07-28 08:00:00 发布

烟雨人长安

最新推荐文章于 2024-07-28 08:00:00 发布

阅读量2.3w

点赞数 14

分类专栏： Python 数据分析文章标签： python pandas

本文链接：https://blog.csdn.net/Matrix_cc/article/details/120366755

版权

13 篇文章 3 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

首先创建一个表：

df = pd.DataFrame({'A':[100, 100, 200, 300, 400], 
                   'B':['a', 'a', 'c', 'd', 'e'],
                   'C':[3, 2, 1, 5, 4]})

生成出来的表如下所示：

1）找出df中A列值为100的所有数据

df[df.A==100]

这里也可以是小于（<）、大于（>）、小于等于（<=）、大于等于（>=）、不等于（!=）等情况。

2） 找出df中A列值为100、200、300的所有数据

num = [100, 200, 300]
df[df.A.isin(num)]

3） 找出df中A列值为100且B列值为‘a’的所有数据

df[(df.A==200)&(df.B=='c')]

4）找出df中A列值为100或B列值为‘b’的所有数据

df[(df.A==100)|(df.B=='b')]

这里需要注意的是，多条件筛选的时候，必须加括号'()'。

5) 需要删除B列的重复行，同时保留重复行中C列最大值所在的行

df.sort_values("C", ascending=False).drop_duplicates("B", keep='first').reset_index(drop=True)

可以看到，B列数据只有一个‘a’数据了，这句代码的意思是先对C列进行降序排序，然后删除B列重复的数据，keep参数是只保留第一个，因为是降序排序，第一个B列的C列数据相对于其他重复的C列数据是最大的（有点绕口）

参考：

关注

专栏目录