pandas对包含文字的列数据进行筛选str.contains()

最新推荐文章于 2024-07-28 08:00:00 发布

noob_python

最新推荐文章于 2024-07-28 08:00:00 发布

阅读量1.1w

点赞数 19

文章标签： python pandas 正则表达式

本文链接：https://blog.csdn.net/qq_42006613/article/details/109531495

版权

我们在使用pandas读取Excel后一般都需要对数据进行筛选，如果是数字格式的话比较简单，如果遇到列全部都是文字的话，如果按照我们的需求进行筛选呢？如筛选有指定文字的数据集，筛选包含某几个字的数据集，甚至运用正则表达式，去使用更高级的筛选策略呢，欢迎阅读如何使用pandas对包含文字的列数据进行筛选。

样例数据：

固定值过滤（必须全匹配）

print(data[data['籍贯'] == '北京'])

模糊过滤

文字匹配

print(data[data['籍贯'].str.contains('河北')])

注意data['籍贯'].str.contains('河北')返回的数据类型是Series,内容为是否包含河北的bool值

正则匹配

Str.contians也支持传入正则表达式进行匹配，这就给数据筛选提供了多的可能

print(data[data['籍贯'].str.contains('.*?泰州')])

匹配以泰州结尾的籍贯

如果觉得不错就点个赞吧哈哈哈哈哈哈哈！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

noob_python

关注关注

19
点赞
踩
54

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

pandas使用isin函数和all函数判断dataframe特定数列中是否包含指定列表中的全部内容

data+scenario+science+insight

02-02

883

pandas使用isin函数和all函数判断dataframe特定数列中是否包含指定列表中的全部内容（checking if the dataframe column contains all value in the list）

Pandas筛选包含特定字符的列

lightis_tian的博客

03-31

1万+

问题提出：比如有一个三百多列的数据集，想要快速找到包含xxx的列，这里有三种方法 if判断+列表解析式 [x for x in df.columns if 'xxx' in x] str.contain()+列表解析式 [x for x in df.columns[df.columns.str.contain('xxx')]] filter函数 df.filter(like='x...

1 条评论您还未登录，请先登录后发表或查看评论

选择包含某字符的列 pandas

qq_23069955的博客

05-15

9635

选择包含“承德”的列数据 #-*-coding:utf-8-*- import pandas as pd from pandas import DataFrame #读取数据 file = pd.read_excel('test.xlsx',encoding='utf-8') df = pd.DataFrame(file) for index,row in df.iterrows(): ...

Pandas筛选数据的10种方法

最新发布

python茶水实验室

07-28

971

Pandas筛选数据的10种方法

验证Pandas DataFrame中的某一列是否包含特定数据

YHKKun的博客

02-06

1907

3 如果只是想检查列中是否存在至少一个特定值，可以使用。返回一个布尔值，表示是否存在至少一个True在布尔序列中。方法检查列中是否包含在一组给定的值中。

pandas筛选某个列值是否位于某个列表内

kking_edc的博客

04-04

7609

首先创建一个DataFrame： fruits_dict = { 'Fruits':['Apple','Banana','Cherry','Dates','Eggfruit'], 'Quantity': [5, 10, 8, 3, 7], 'Color': ['Red', 'Yellow', 'Red', 'Brown', 'Yellow']} df=pd.DataFrame(fruits_dict) 观察这个DataFrame： Fr

pandas筛选出含有特定字符串的列

SUFEHeisenberg的博客

11-10

793

【代码】pandas筛选出含有特定字符串的列。

pandas利用str.contains筛选报错

natsumela的博客

10-12

1984

在使用pandas对excel进行筛选时， df.loc[df['threat_type'].str.contains("DGA")] 出现以下报错： ValueError: Cannot mask with non-boolean array containing NA / NaN values 报的是分组这一列中，包含了非字符串的内容，由于.str.contains的使用要求该字段必须为字符串，不能有数字等，故而在代码上加上 df.loc[df['threat_type'].str.conta

pandas 筛选含有特定元素的行或列 str.contains（）函数

weixin_45718167的博客

02-22

8063

在处理数据的时候遇到需要查找含有某特定字符串的问题，顺便记录一下我们先用str将所需要筛选的列转换成字符形式，然后通过contains（）函数来筛选下面看一个例子创建一个DataFrame df = pd.DataFrame({'A':['aasd','sb','adg','sfh','rh'],'B':np.arange(5)}) print(df) out: A B 0 ...

pandas 数据筛选---isin(类似sql的in功能)str.contains(类似sql的like功能)

weixin_42983055的博客

04-09

2310

df的结构如下：筛选产品=‘结清’,注：一定要用 ‘==’，因为 '= '是判断内存地址的；多条件判断；条件与条件之间必须用 ‘()’ 小括号括起来，不然会报错没有小括号的报错形式如下：选取特定两列，用’[]‘方括号括起来：选取某列中包含多个字符，用isin()，注意isin( [] )括号里面是一个列表： .str.contains(’’)里面是字符串，用 “|” 可以进...

Pandas处理dataframe的文本数据列：使用str属性获取数据列的字符串方法类、contains函数筛选dataframe指定数据列包含特定内容的所有数据行

data+scenario+science+insight

11-27

453

Pandas处理dataframe的文本数据列：使用str属性获取数据列的字符串方法类、contains函数筛选dataframe指定数据列包含特定内容的所有数据行

pandas 用str.contains 一个字段如果包含某两个字就生成新的一列判断其类别

06-07

在上面的代码中，我们使用 loc 方法结合 str.contains 方法对 text 列进行处理，生成 category 列作为类别。具体来说，如果某个 text 包含 hello 和 world 这两个字，就将其归为 category1 类别，否则归为 category2...

Pandas DataFrame筛选包含字符串的列的3种方法

devid008的博客

05-10

4811

Pandas是Python中强大的数据分析库，如果你想高效处理数据，熟练掌握DataFrame的用法是必不可少的。本文介绍3种筛选DataFrame中包含特定字符串的列的方法。

python判断某列有值_检查pandas中的dataframe列中是否包含某些值

热门推荐

weixin_39993454的博客

12-09

1万+

我认为您需要^{}，如果您需要date列的值包含字符串07311954的行：print df[df['date'].astype(str).str.contains('07311954')]或者如果date列的type是string：print df[df['date'].str.contains('07311954')]如果要检查string1954列中date的最后4位：print df[df...

pandas的Series中判断是否包含某个值

dugushangliang的博客

10-25

1万+

版权声明：转载请注明作者（独孤尚良dugushangliang）出处： pandas的Series的值如下，从中读取了一个值赋给了dttm：如何判断这个dttm是否在dfinx中呢？对，用in。从上图可知，直接用in得不到预期的结果。但将dfinx转为list或者使用unique()方法就得到预期结果了，这是为什么呢？因为pandas.Series的in用法和Python自有格式list、numpy.array格式有所不同的。此外还有pandas.Series.isin这种..

实战 | Pandas如何筛选出包含特定字符串的列

weixin_38754337的博客

10-27

6881

CDA数据分析师出品作者:张彦存编译: MikaPandas中字符串的操作是相当的灵活，内置了大量的相关方法用于字符串的加工处理，并且许多方法都是支持正则表达式的。筛选包含特定字符串的列可以根据特定字符串在列名中的位置有这么几种情形：这个特定字符串在列名首这个特定字符串在列名尾这个特定字符串在列名中这个特定字符串在列名的任意位置上筛选特定的列数据基本有两种思路：使用pandas字符串...

pandas series 判断是否包含某个值

呆萌的代Ma

02-12

1万+

直接使用value in series_value是False；而如果使用value in series_value.unique()就可以是True 例： import pandas as pd series_value = pd.Series(data=['a', 'b', 'c']) a_in_series = 'a' in series_value a_in_series_unique = 'a' in series_value.unique() print(a_in_series) print(

python pandas,判断某一列是否包含true或者全为true

weixin_46931019的博客

09-12

1294

python pandas,判断某一列是否包含true或者全为true

pandas 提取含有关键字的列

oldmoney

10-29

1634

# 方法1 search_cols = [col for col in df.columns if 'keywords' in col] print(search_cols) df5 = df[search_cols] # 方法2 search_cols=df.filter(like='keywords').columns df4 = df[search_cols]

pandas str.contains

06-28

### 回答1： pandas中的str.contains()函数用于在Series或DataFrame的字符串列中查找是否包含指定的字符串，它返回一个布尔值的Series，其中每个元素表示该字符串是否包含指定的子字符串。这个函数可以用来做数据清洗、数据筛选和数据分析等工作。使用时需要注意参数的传递方式和字符串匹配的规则。 ### 回答2： Pandas是一个流行的数据处理和分析工具，其中str.contains()是Pandas中处理字符串的一个方法。这个方法可以用来检查一个字符串中是否包含另一个字符串，返回一个布尔值。在Pandas中使用str.contains()方法时，我们需要先指定一个Series或DataFrame中的列名，然后使用该方法来筛选符合条件的行。例如，在一个包含员工信息的DataFrame中，我们可以使用str.contains()方法来筛选出所有工作地点为“上海”的员工： ``` import pandas as pd # 创建一个DataFrame data = {'name': ['Tom', 'Jerry', 'Bob', 'Allen'], 'location': ['上海', '北京', '广州', '上海']} df = pd.DataFrame(data) # 使用str.contains()方法筛选符合条件的行 result = df[df['location'].str.contains('上海')] print(result) ``` 输出结果为： ``` name location 0 Tom 上海 3 Allen 上海 ``` 在上面的例子中，我们使用str.contains()方法筛选了包含“上海”的行，然后将结果存储在一个新的DataFrame中。需要注意的是，该方法会自动忽略大小写。此外，当我们需要同时匹配多个条件时，可以使用正则表达式来进行复杂的规则匹配。例如，我们可以使用以下代码来筛选所有以字母“A”开头或者包含字母“o”的公司名称： ``` import pandas as pd # 创建一个包含公司名称的DataFrame data = {'company': ['Apple', 'Microsoft', 'Amazon', 'Oracle']} df = pd.DataFrame(data) # 使用正则表达式筛选符合条件的行 result = df[df['company'].str.contains('^A|o')] print(result) ``` 输出结果为： ``` company 0 Apple 2 Amazon 3 Oracle ``` 在上面的例子中，我们使用了正则表达式“^A|o”作为str.contains()方法的参数，该正则表达式匹配了以字母“A”开头或者包含字母“o”的字符串。综上所述，Pandas中的str.contains()方法可以方便地对字符串进行匹配和筛选，支持简单的字符串匹配和复杂的正则表达式规则匹配。 ### 回答3： pandas中str.contains是一个用于检查Series或DataFrame中的字符串是否包含指定的模式的方法。它可以用于查找某个关键词、正则表达式或字符串，并返回一个布尔值的结果，用于描述字符串是否存在。要在pandas中使用str.contains方法，首先需要将需要搜索的列转换为字符串格式，可以使用astype方法将它们转换为字符串数据类型。例如，可以使用以下方法将数字列转换为字符串列: ``` df['col'] = df['col'].astype(str) ``` 接下来，可以使用str.contains方法来匹配：检查一个字符串是否包含另一个字符串、检查它是否符合某个正则表达式、检查它是否以某个前缀或后缀开头或结尾。 str.contains方法使用正则表达式进行匹配，因此，可以使用正则表达式标识符来指定更复杂的模式。例如，可以使用以下代码在DataFrame中查找所有以A开头和B结尾的字符串： ``` df[df['col'].str.contains(r'^A(.*)B$')] ``` 在这个例子中，r'^A(.*)B$'正则表达式被指定为模式，^（脱字符）代表字符串的开头，$（美元符号）代表字符串的结尾，(.*)代表任意字符的一个或多个字符序列。这将从DataFrame的'col'列中选取所有匹配模式的行。可以使用参数case在默认情况下区分大小写或不区分大小写进行比较，如以下示例所示： ``` df[df['col'].str.contains('A', case=False)] ``` str.contains方法也支持na参数，默认情况下，它被设置为False，这意味着如果要检查是否包含某个字符串时，如果存在NaN值，则返回False。如果将na参数设置为True，则str.contains将返回NaN，而不是False。总之，str.contains是pandas中一个非常有用的方法，可以在Series和DataFrame对象中轻松地查找特定模式的字符串。无论是在执行数据清洗、基于文本数据的分析，还是在其他相关任务中，它都能发挥出巨大的作用。