【赠书福利】Pandas实用技能，数据筛选query函数详细介绍

最新推荐文章于 2024-09-10 17:51:27 发布

小詹学 Python

最新推荐文章于 2024-09-10 17:51:27 发布

阅读量424

点赞数

文章标签： pandas python 数据分析开发语言数据挖掘

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0OTU5OTI4MA==&mid=2247508729&idx=1&sn=00f19e65f8bed50a5b9610dc65eb4c80&chksm=fbaf83a6ccd80ab08ce185ba55b959964ce714054d262b00457ee2196fd7143eabaa78cb95ce&scene=126&sessionid=0

版权

Pandas 可以说是在Python数据科学领域应用最为广泛的工具之一。

Pandas是一种高效的数据处理库，它以 dataframe 和 series 为基本数据类型，呈现出类似excel的二维数据。

在数据处理过程中，咱们经常会用到数据筛选，Pandas 中提供了数据筛选的多种方法，这里，阳哥来给大家分享下在Pandas中应用 query 函数来进行数据筛选。

query 函数的一般用法如下：

df.query('expression')

文中的代码是在 Jupyter Notebook 中运行的（也可以是其他IDE），本次使用的 Pandas 版本是 1.3.0 版，如下：

import pandas as pd


print(f'pandas version: {pd.__version__}')

# pandas version: 1.3.0rc1

在开始之前，先创建一份数据，供后续使用：

data = {
    'brand':['Python数据之道','价值前瞻','菜鸟数据之道','Python','Java'],
    'A':[10,2,5,20,16],
    'B':[4,6,8,12,10],
    'C':[8,12,18,8,2],
    'D':[6,18,14,6,12],
    'till years':[4,1,1,30,30]
}

df = pd.DataFrame(data=data)
df

数据如下：

常用方法

筛选 "brand" 列中值为 "Python数据之道" 的行，如下：

df.query('brand == "Python数据之道"')

结果如下：

说明一下，上面代码中的单引号和双引号是可以互换的，下面的写法，其结果也是一样的：

df.query(" brand == 'Python数据之道' ")

上面用 query 函数筛选数据，用下面的方法也是可以实现的：

df[df['brand']=="Python数据之道"]

上面是筛选字符串的值，也可以是筛选数字，如下：

通过数学表达式筛选

除了直接通过等于某个值来筛选， query 函数还支持通过数学表达式来进行数据筛选，包括 >、 <、 +、 -、 *、 / 等。

示例如下：

通过变量筛选

在程序比较长的时候，经常会使用变量来作为筛选条件， query 函数在使用变量作为判断标准时，通过在变量前面添加 @ 符号来实现，示例如下：

# 通过变量来筛选数据，在变量前使用 @ 符号即可

name = 'Python数据之道'

df.query('brand == @name')

列表数据筛选

当需要在某列中筛选多个符合要求的值的时候，可以通过列表（list）来实现，示例如下：

# 需要注意下 双引号 和 单引号的分开使用

df.query('brand in ["Python数据之道","价值前瞻"]')
# df.query("brand in ['Python数据之道','价值前瞻']")

多条件筛选

有很多情况下，咱们需要通过多个条件来筛选数据，query 函数支持多种条件的组合，

两者都需要满足的并列条件使用符号 &,或单词 and
只需要满足其中之一的条件使用符号 |,或单词 or

示例如下：

列名称有空格的情况

当 dataframe 的列名称中有空格或其他特殊符号的时候，需要使用 反引号（backtick mark），即键盘ESC键下面的按键(就是键盘上第二排第一个按键，有‘~’这个符号的按键) 来将列名包裹起来，示例如下：

df.query("`till years` < 5")

注意，如果使用单引号，将会报错，如下：

筛选后选取数据列

在数据筛选后，还可以选择需要的数据列，如下：

小结

以上就是关于 Pandas 中 query 函数的主要内容介绍，应用 query函数进行数据筛选，其语言还是比较简洁的，尤其是当条件比较多的时候，会显得更优雅。

比如下面的对比，假设都是三个筛选条件（假设数据量较多，符合的结果也较多）：

没有使用query函数时

df[(df['brand']=="Python数据之道") & (df['A'] >2) & (df['C'] >4)]

可以看出上面的表达式是比较长的，略显繁琐。

使用query函数时

df.query(" brand == 'Python数据之道' & A>2 & C>4 ")

相对来说，使用query 函数会显得更加简洁，如果觉得这个功能不错，就赶紧用起来吧~~

送书啦！留言互动，点赞前 5 名送书！截止时间1月11日。

数据科学项目有很多灵活的部分，需要练习和技巧才能让所有代码、算法、数据集、格式和可视化协调工作。本书将引导你完成5个真实项目，包括根据新闻标题跟踪疾病暴发、分析社交网络以及在广告点击数据中寻找相关模式。

本书并不止于表面理论和简单示例。在完成每个项目时，你将学习如何解决常见问题，例如数据丢失、混乱的数据以及与构建模型不匹配的算法。你将了解详细的设置说明和常见故障的全面解决方案。最后，通过完成这些项目，你将对自己的技能充满信心。