常规条件下的python正则表达式参见:
Python正则表达式中问号的四种用法_Python热爱者的博客-CSDN博客_python 问号
Python正则表达式大全_普通网友的博客-CSDN博客_python正则表达式
pandas中的正则表达式,就要用到str.contains 了。
以泰坦尼克数据为例:
import sys,os,re
import numpy as np
import pandas as pd
import copy
from collections import Counter
import datetime
from sklearn import datasets #有波士顿数据
df = pd.read_csv('D:/软件安全下载目录/titanic.csv') #泰坦尼克数据
#注意,这里的(?i)表示的这里的匹配的时候不区分大小写
#类似于 re.search(r'elisabeth', df.name[1], re.I)
#而在pandas里面,会将每个元素单独拎出来匹配,匹配则为True,否则False
df.name.str.contains(r'(?i)elisabeth',regex=True).sum()
类似的,如果用正则表达式的目的是为了替换:
df.replace
?df.replace
Signature:
df.replace(
to_replace=None,
value=None,
inplace=False,
limit=None,
regex=False,
method='pad',
)