pandas 获取不符合条件/不包含某个字符串的dataframe

本文介绍了如何使用Pandas库在Python中筛选DataFrame数据,包括通过`str.contains()`和`isin()`函数筛选包含特定字符串的行,以及如何使用正则表达式进行精确匹配。同时,文章还展示了如何筛选不包含特定字符串的数据,并处理多个条件的筛选。对于复杂场景,可以结合使用逻辑运算符和正则表达式来满足不同需求。
摘要由CSDN通过智能技术生成

作中数据的处理中往往会遇到筛选出不符合条件的或者不包含某个字符的dataframe,我们会如何去做呢?

可能你会想到用python写一个函数,然后用panda的apply函数或者map函数来进行处理,不可否认这是一中方法,但是实际上pandas中已经给我们开发了这样的函数,那我们为什么不直接调用呢?

首先看一下,怎么筛选出包含某些字符串的数据

#这是使用语法,模糊匹配
df[ df['通信名称'].str.contains('联通|移动|小灵通|电信')]
 
#这一种方法不是匹配,而是等于后面列表中的值,要注意区别
df[ df['通信名称'].isin(['联通','移动','小灵通','电信'])]

包含的字符串比较多时就用’|‘管道符隔开

那取出不包含这些字符串的数据怎么操纵呢,很简单,就是在前面加上一个~这种波浪符号就可以了

df[~ df['通信名称'].str.contains('联通|移动|小灵通|电信')]

没错就是这么简单的操作,但是contains也有一个不好的地方,就是如果某一列数据是文本型数据,处理起来就不是那么完美,因为contains函数类似于模糊查询,所以会出现错误匹配或者超出我们需要的匹配范围

问题又来了如果我们的条件是多个怎么办呢?

我们就需要这样来做:

df[ df['通信名称'].str.contains('联通|移动|小灵通|电信') | df['通信备注'].str.contains('公告|活动|提示|优惠') ]
或者这样写
df[df["col1"].str.contains('this|that')==False and df["col2"].str.contains('foo|bar')==True]
 
 

当然,到哪里都离不开的正则表达式在这里也是可以用的:

pattern=r'.*?'
df[df[columns].str.contains(pattern)]

这样你就可以根据自己的需求快乐的指定匹配原则了。

 

 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值