我们在使用pandas读取Excel后一般都需要对数据进行筛选,如果是数字格式的话比较简单,如果遇到列全部都是文字的话,如果按照我们的需求进行筛选呢?如筛选有指定文字的数据集,筛选包含某几个字的数据集,甚至运用正则表达式,去使用更高级的筛选策略呢,欢迎阅读如何使用pandas对包含文字的列数据进行筛选。
样例数据:
固定值过滤(必须全匹配)
print(data[data['籍贯'] == '北京'])
模糊过滤
- 文字匹配
print(data[data['籍贯'].str.contains('河北')])
注意data['籍贯'].str.contains('河北')返回的数据类型是Series,内容为是否包含河北的bool值
- 正则匹配
Str.contians也支持传入正则表达式进行匹配,这就给数据筛选提供了多的可能
print(data[data['籍贯'].str.contains('.*?泰州')])
匹配以泰州结尾的籍贯
如果觉得不错就点个赞吧 哈哈哈哈哈哈哈!