AttributeError: 'DataFrame' object has no attribute 'map'

最新推荐文章于 2024-07-30 22:02:37 发布

奔跑的乌班

最新推荐文章于 2024-07-30 22:02:37 发布

阅读量5.5k

点赞数

分类专栏：大数据文章标签： spark pyspark sparkSQL

本文链接：https://blog.csdn.net/u010199356/article/details/89815459

版权

大数据专栏收录该内容

12 篇文章 1 订阅

订阅专栏

[root@master pyspark]# spark-submit spark_python_sql.py
19/05/04 17:03:16 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
Using Spark’s default log4j profile: org/apache/spark/log4j-defaults.properties
19/05/04 17:03:16 INFO SparkContext: Running Spark version 2.4.1
19/05/04 17:03:16 INFO SparkContext: Submitted application: python Spark Wordcount…
19/05/04 17:03:17 INFO SecurityManager: Changing view acls to: root
19/05/04 17:03:17 INFO SecurityManager: Changing modify acls to: root
19/05/04 17:03:17 INFO SecurityManager: Changing view acls groups to:
19/05/04 17:03:17 INFO SecurityManager: Changing modify acls groups to:
19/05/04 17:03:17 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(root); groups with view permissions: Set(); users with modify permissions: Set(root); groups with modify permissions: Set()
19/05/04 17:03:17 INFO Utils: Successfully started service ‘sparkDriver’ on port 40129.
19/05/04 17:03:17 INFO SparkEnv: Registering MapOutputTracker
19/05/04 17:03:17 INFO SparkEnv: Registering BlockManagerMaster
19/05/04 17:03:17 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
19/05/04 17:03:17 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
19/05/04 17:03:17 INFO DiskBlockManager: Created local directory at /tmp/blockmgr-d8b28dd5-9cd1-4837-8eb7-77e63976c377
19/05/04 17:03:17 INFO MemoryStore: MemoryStore started with capacity 366.3 MB
19/05/04 17:03:17 INFO SparkEnv: Registering OutputCommitCoordinator
19/05/04 17:03:17 INFO Utils: Successfully started service ‘SparkUI’ on port 4040.
19/05/04 17:03:18 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://master:4040
19/05/04 17:03:18 INFO Executor: Starting executor ID driver on host localhost
19/05/04 17:03:18 INFO Utils: Successfully started service ‘org.apache.spark.network.netty.NettyBlockTransferService’ on port 46628.
19/05/04 17:03:18 INFO NettyBlockTransferService: Server created on master:46628
19/05/04 17:03:18 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
19/05/04 17:03:18 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, master, 46628, None)
19/05/04 17:03:18 INFO BlockManagerMasterEndpoint: Registering block manager master:46628 with 366.3 MB RAM, BlockManagerId(driver, master, 46628, None)
19/05/04 17:03:18 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, master, 46628, None)
19/05/04 17:03:18 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, master, 46628, None)
Traceback (most recent call last):
File “/home/badou/pyspark/spark_python_sql.py”, line 53, in
“”").map(lambda output: output.session_id + “\t” + str(output.cnt))
File “/root/anaconda3/envs/py27/lib/python2.7/site-packages/pyspark/python/lib/pyspark.zip/pyspark/sql/dataframe.py”, line 1300, in getattr
AttributeError: ‘DataFrame’ object has no attribute 'map’

对于上面的问题，查了很多资料，发现在Spark2.0之前，spark_df.map是spark_df.rdd.map()的别名，但在spark2.2的环境中，就会报DataFrame' object has no attribute 'map' 的错误，所以必须显式调用，将其转换为RDD并通过执行spark_df.rdd.map()；由于本人使用的spark2.0版本，因此出现了这个问题。

下面是代码
#coding=utf-8
import os
import time
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext, Row

if name == “main”:
sparkConf = SparkConf().setAppName(“python Spark Wordcount…”).setMaster(“local[2]”)

sc = SparkContext(conf=sparkConf)  # 创建Sparkontext
sc.setLogLevel("WARN")  # 设置日志级别

# create SQLContext
sqlcontext = SQLContext(sparkContext=sc)  # 主要这里的参数sparContext，不是Sparkontext类

# transform function
def map_func(line):
    # split line
    arr = line.split("\t")
    # return  这里是Row类型，需要去学习一下
    return Row(track_time=arr[0], url=arr[1], session_id=arr[2]
    , referer=arr[3], ip=arr[4], end_user_id=arr[5], city_id=arr[6])

# read data from local/hdfs and transform RDD[Row]
page_views_rdd = sc\
    .textFile("/home/badou/pyspark/page_views.data")\
    .map(map_func)
# create dataFrame
page_views_df = sqlcontext.createDataFrame(page_views_rdd)

# # print
# print page_views_df.count()
# page_views_df.show()

"""
    基于SQL进行数据分析
"""
# register temp table（首先注册为一张临时表）
page_views_df.registerTempTable("temp_page_views")

# 需求：按照session_id进行分组，统计次数，会话PV
session_pv = sqlcontext.sql("""
SELECT
session_id, count(1) AS cnt
FROM
temp_page_views
GROUP BY
session_id
ORDER BY
cnt DESC
LIMIT
10
""").rdd.map(lambda output: output.session_id + "\t" + str(output.cnt))

for result in session_pv.collect():
    print result
# 这种方式使用的并不多




time.sleep(100000)  # 休眠一段时间，为web ui进行监控
sc.close()