1.pandas dataframe
匹配一个很简单,批量匹配如下
df_obj[df_obj['title'].str.contains(r'.*?n.*')] #使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次
pyspark dataframe 中模糊匹配有两种方式
2.spark dataframe api, filter rlike 联合使用
df1=df.filter("uri rlike
'com.tencent.tmgp.sgame|%E8%80%85%E8%8D%A3%E8%80%80_|android.ugc.live|\
%e7%88f%e8%a7%86%e9%a2%91|%E7%%8F%E8%A7%86%E9%A2%91'").groupBy("uri").\
count().sort("count", ascending=False)
注意点:
1.rlike 后面进行批量匹配用引号包裹即可
2.rlike 中要匹配特殊字符的话,不需要转义
3.rlike '\\\\bapple\\\\b' 虽然也可以匹配但是匹配数量不全,具体原因不明,欢迎讨论。
In [5]: df.filter("name rlike '%'").show()
+---+------+-----+
|age|height| name|
+---+------+-----+
| 4| 140|A%l%i|
| 6| 180| i%ce|
+---+--