3.
'PipelinedRDD' object has no attribute '_jdf'
报这个错,是因为导入的机器学习包错误所致。
pyspark.ml 是用来处理DataFrame
pyspark.mllib是用来处理RDD。
所以你要看一下你自己代码里定义的是DataFram还是RDD。
此贴来自汇总贴的子问题,只是为了方便查询。
总贴请看置顶帖:
pyspark及Spark报错问题汇总及某些函数用法。
3.
'PipelinedRDD' object has no attribute '_jdf'
报这个错,是因为导入的机器学习包错误所致。
pyspark.ml 是用来处理DataFrame
pyspark.mllib是用来处理RDD。
所以你要看一下你自己代码里定义的是DataFram还是RDD。
此贴来自汇总贴的子问题,只是为了方便查询。
总贴请看置顶帖:
pyspark及Spark报错问题汇总及某些函数用法。