![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
PySpark
jingyi130705008
你已经很好了,只是你还可以更好。如有疑问,可加qq 1339087315联系~
展开
-
PySpark error: AttributeError: ‘NoneType‘ object has no attribute ‘_jvm‘
出现这种问题,一般是由调用udf的过程报错,报错的几个原因如下:(1)引用pyspark.sql.functions的方法覆盖python本身的方法;(2)没有处理None值原创 2021-11-29 14:22:22 · 1123 阅读 · 0 评论 -
pyspark udf传入固定参数
1. udf 定义def udf_test(column1, column2): if column1 == column2: return column1 else: return column2apply_test = udf(udf_test, StringType())df = df.withColumn('new_column', apply_test('column1', 'column2'))2. 带固定变量的udf定义.原创 2021-03-08 18:56:19 · 744 阅读 · 0 评论 -
pyspark ml 中LogisticRegression的使用
前置概念ML包公开了三个主要的抽象类:转换器(transformer)、评估器(estimator)和管道(pipeline)。转换器,通常通过将一个新列附加到DataFrame来转换数据,其常见参数有inputCol(所要转换列的名称,默认为features)和outputCol(转换后新增的新列名称).评估器,可以理解为需要评估的统计模型,常用来做分类、回归、聚类等。管道,用来...原创 2019-11-06 19:13:33 · 2115 阅读 · 0 评论 -
pyspark ml 中LDA简单示例
# encoding=utf-8import osimport pysparkfrom pyspark.sql import SparkSessionimport pyspark.sql.types as typimport pyspark.ml.feature as ftimport pyspark.ml.clustering as clusfrom pyspark.ml imp...原创 2019-11-07 14:44:11 · 1582 阅读 · 0 评论 -
PySpark 之 GraphFrames简介
GraphFrames可以快速轻松地分析以图形结构组织的数据,边和顶点由DataFrame表示,允许我们存储每个节点和边的任意数据。简单示例如下:# encoding=utf-8import osimport pysparkfrom pyspark.sql import SparkSessionfrom pyspark.sql import types as typfrom p...原创 2019-11-11 19:05:44 · 3791 阅读 · 0 评论 -
PySpark将dataframe写入本地文件,只生成文件夹含有SUCCESS
1. 代码results = res.rdd\ .map(lambda word: (word[0].replace(u"(", u"(").replace(u")", u")"), word[1], word[2]))\ .filter(lambda word: word[0] in companys_list)\ .map(lambda word: (companys_dic.get(word[0], word[0]),word[1],原创 2020-08-26 11:16:52 · 5336 阅读 · 0 评论