前提知识:
- re.search 的函数:re.search(pattern, string, flags=0)
- df.aplly()函数
# 给定正则表达式,希望从df1['title']中找出匹配它的结果
regstr = "color.*ball.*pen"
# 自定义匿名函数 search_func,将re.search(x, y)的两个参数位置调换一下(为了df.appy函数中,能够正常使用多参数)
search_func = lambda x,y:re.search(y, x)
# apply里使用的函数search_func有多个参数,对第二个参数y要显性赋值,如果是df的一个字段,必须用引号
df1['title_new'] = df1['title'].apply(search_func, y=regstr) #正确
df1['title_new'] = df1['title'].apply(re.search, pattern=regstr) # re.search 语法错误。re.search的第一个参数pattern会默认是df1['title'] , 如果重复给pattern再次赋值regstr,就报语法错误。
# 额外练习:当apply中的函数的多参数是df中的字段时,如何使用?
# df1['title_new'] = df1['title'].apply(search_func, y="sku") #正确。sku是df1中的一个列名,需要用引号。
df1[df1['title_new'].notna()]