pyspark中：DataFrame' object has no attribute 'map'

最新推荐文章于 2024-09-26 11:28:20 发布

斯特兰奇

最新推荐文章于 2024-09-26 11:28:20 发布

阅读量3.6k

点赞数 1

分类专栏： python基础文章标签： spark

本文链接：https://blog.csdn.net/qq_39954916/article/details/105955981

版权

python基础专栏收录该内容

39 篇文章 4 订阅

订阅专栏

在对 pyspark的sparksql 代码中测试中，在spark1.6中使用dataframe的map对象时，如下代码

session_pv = sqlContext.sql("""SELECT session_id,COUNT(1) AS cnt FROM tmp_page_views GROUP BY session_id ORDER BY cnt DESC LIMIT 20""")\
             .map(lambda output: output.session_id + "\t"+ str(output.cnt))

是可以正常运行的，是因为在Spark2.0之前，spark_df.map是spark_df.rdd.map（）的别名，但在我的spark2.1.1的环境中，就会报DataFrame' object has no attribute 'map' 的错误，所以必须显式调用，将其转换为RDD并通过执行spark_df.rdd.map（），代码必须写成：

session_pv = sqlContext.sql("""SELECT session_id,COUNT(1) AS cnt FROM tmp_page_views GROUP BY session_id ORDER BY cnt DESC LIMIT 20""")\
             .rdd.map(lambda output: output.session_id + "\t"+ str(output.cnt))

执行成功。结果如下：