pyspark中:DataFrame' object has no attribute 'map'

在对 pyspark的sparksql 代码中测试中, 在spark1.6中使用dataframe的map对象时,如下代码

session_pv = sqlContext.sql("""SELECT session_id,COUNT(1) AS cnt FROM tmp_page_views GROUP BY session_id ORDER BY cnt DESC LIMIT 20""")\
             .map(lambda output: output.session_id + "\t"+ str(output.cnt))

是可以正常运行的,是因为 在Spark2.0之前,spark_df.map是spark_df.rdd.map()的别名,但在我的spark2.1.1的环境中,就会报DataFrame' object has no attribute 'map' 的错误,所以必须显式调用,将其转换为RDD并通过执行spark_df.rdd.map(),代码必须写成:

session_pv = sqlContext.sql("""SELECT session_id,COUNT(1) AS cnt FROM tmp_page_views GROUP BY session_id ORDER BY cnt DESC LIMIT 20""")\
             .rdd.map(lambda output: output.session_id + "\t"+ str(output.cnt))

执行成功。结果如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值