pandas 中dataframe 中的模糊匹配与pyspark dataframe 中的模糊匹配

最新推荐文章于 2024-07-01 00:05:40 发布

apache150

最新推荐文章于 2024-07-01 00:05:40 发布

阅读量1.3w

点赞数 4

分类专栏：大数据处理文章标签： spark sql dataframe rlike

本文链接：https://blog.csdn.net/apache150/article/details/81180080

版权

本文探讨了在Pandas DataFrame中如何使用正则表达式进行模糊匹配，并对比了PySpark DataFrame中通过filter和rlike方法进行模糊匹配的方法。在PySpark中，rlike操作对于批量匹配是便捷的，但要注意特殊字符无需转义。同时，文章提到了在Spark SQL中使用like和regexp进行批量匹配的场景。

摘要由CSDN通过智能技术生成

1.pandas dataframe

匹配一个很简单,批量匹配如下

df_obj[df_obj['title'].str.contains(r'.*?n.*')] #使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次

pyspark dataframe 中模糊匹配有两种方式

2.spark dataframe api, filter rlike 联合使用

df1=df.filter("uri rlike 
   'com.tencent.tmgp.sgame|%E8%80%85%E8%8D%A3%E8%80%80_|android.ugc.live|\
   %e7%88f%e8%a7%86%e9%a2%91|%E7%%8F%E8%A7%86%E9%A2%91'").groupBy("uri").\
   count().sort("count", ascending=False)

注意点：

1.rlike 后面进行批量匹配用引号包裹即可

2.rlike 中要匹配特殊字符的话，不需要转义

3.rlike '\\\\bapple\\\\b' 虽然也可以匹配但是匹配数量不全，具体原因不明，欢迎讨论。

In [5]: df.filter("name rlike '%'").show()
+---+------+-----+
|age|height| name|
+---+------+-----+
|  4|   140|A%l%i|
|  6|   180| i%ce|
+---+--

最低0.47元/天解锁文章

apache150

关注

4
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
pandas 中dataframe 中的模糊匹配与pyspark dataframe 中的模糊匹配

1.pandas dataframe 匹配一个很简单,批量匹配如下df_obj[df_obj['title'].str.contains(r'.*?n.*')] #使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次pyspark dataframe 中模糊匹配有两种方式2.spark dataframe api, filter rlike 联合使用df1=d...
复制链接

扫一扫