![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
PySpark
文章平均质量分 60
Elvis_hui
寒江孤影,江湖故人,相逢何必曾相识!
展开
-
when-otherwise for pyspark用法
对city 和 model 两列 个数小于4的,全部修改为默认值原创 2022-06-14 16:08:42 · 1193 阅读 · 0 评论 -
Pyspark_ML_PCA_调参_数理统计
Pyspark_ML_PCA_调参_数理统计一、降维模型二、模型优化1、交叉验证模式2、留出法模式三、实用工具1、向量和矩阵2、数理统计一、降维模型Mllib中支持的降维模型只有主成分分析PCA算法。这个模型在spark.ml.feature中,通常作为特征预处理的一种技巧使用。from pyspark.ml.feature import PCAfrom pyspark.ml.linalg import Vectorsdata = [(Vectors.sparse(5, [(1, 1.0), (原创 2022-03-15 21:35:10 · 1858 阅读 · 0 评论 -
Pyspark_ML_线性回归_决策树回归
Pyspark_ML_线性回归_决策树回归回归模型1,线性回归 2,决策树回归回归模型Mllib支持常见的回归模型,如线性回归,广义线性回归,决策树回归,随机森林回归,梯度提升树回归,生存回归,保序回归。下面仅以线性回归和决策树回归为例。1,线性回归from pyspark.ml.regression import LinearRegression# 载入数据dfdata = spark.read.format("libsvm")\ .load("data/sample_linear_原创 2022-03-15 21:12:58 · 839 阅读 · 1 评论 -
spark_ML_聚类KMeans_高斯混合模型_二分均值
spark_ML_聚类Mllib支持的聚类模型较少,主要有K均值聚类,高斯混合模型GMM,以及二分的K均值,隐含狄利克雷分布LDA模型等。1,K均值聚类from pyspark.ml.clustering import KMeansfrom pyspark.ml.evaluation import ClusteringEvaluator# 载入数据dfdata = spark.read.format("libsvm").load("data/sample_kmeans_data.txt")原创 2022-03-15 21:03:16 · 1597 阅读 · 0 评论 -
Pyspark_Ml_决策树_RF_GBT
spark_ML_决策树1,决策树代码实现from pyspark.ml import Pipelinefrom pyspark.ml.classification import DecisionTreeClassifierfrom pyspark.ml.feature import StringIndexer, VectorIndexerfrom pyspark.ml.evaluation import MulticlassClassificationEvaluator# 载入数据dfda原创 2022-03-15 20:47:18 · 2052 阅读 · 2 评论 -
PySpark_ML_相关API特征工程处理
ML下的特征工程相关API特征工程1、CountVectorizer2、Word2Vec3、OnHotEncoder4、 MinMax标准化5、MaxAbsScaler标准化6、SQLTransformer7、 Imputer特征工程spark的特征处理功能主要在 pyspark.ml.feature 模块中,包括以下一些功能。特征提取:Tf-idf, Word2Vec, CountVectorizer, FeatureHasher特征转换:OneHotEncoderEstimator, N原创 2022-03-15 20:16:20 · 1136 阅读 · 0 评论 -
PySpark_Ml_逻辑归回分词预测
Spark——ML下的学习库一,MLlib基本概念二, Pipeline流水线范例1,准备数据2,定义模型3,训练模型4,使用模型5,评估模型6,保存模型Llib是Spark的机器学习库,包括以下主要功能。实用工具:线性代数,统计,数据处理等工具特征工程:特征提取,特征转换,特征选择常用算法:分类,回归,聚类,协同过滤,降维模型优化:模型评估,参数优化。MLlib库包括两个不同的部分:pyspark.mllib 包含基于rdd的机器学习算法API,目前不再更新,以后将被丢弃,不建议使用。p原创 2022-03-15 19:59:20 · 1784 阅读 · 0 评论 -
SparkDF操作与SQL交互和相关函数整理
SparkDF与SparkSQL交互操作函数笔记一、生成DF方式1.toDF2.createDataFrame3.list 转 DF4.schema动态创建DataFrame5.通过读取文件创建DF二、保存文件三、DF相关API1.Action2.RDD类操作3.Excel类操作四、DF与SQL交互操作1.查询 select,selectExpr,where2.表连接 join,union,unionAll3.表分组 groupby,agg,pivot4.窗口函数、爆炸函数、复合型函数4-1.窗口函数4-2原创 2022-03-15 00:41:27 · 3627 阅读 · 0 评论 -
RDD常用算子整理
相关算子整理1.Action2.Transformation3.key-valueRDD的操作4.缓存操作5. 共享变量from pyspark import SparkConf,SparkContextimport findspark findspark.init()conf=SparkConf().setAppName('RD').setMaster('local[*]')sc=SparkContext(conf=conf)1.Actioncollect将数据汇集到Driver原创 2022-03-14 18:26:08 · 1734 阅读 · 0 评论 -
pyspark_RDD练习
RDD编程练习熟悉一些算子的常规用法,多加练习求平均数求众数求TopN排序并返回序号二次排序连接操作分组求众数熟悉一些算子的常规用法,多加练习求平均数#任务:求data的平均值data = [1,5,7,10,23,20,6,5,10,7,10]rdd_data = sc.parallelize(data)s = rdd_data.reduce(lambda x,y:x+y+0.0)n = rdd_data.count()avg = s/nprint("average:",avg)原创 2022-03-09 08:37:54 · 1069 阅读 · 0 评论 -
本机安装PySpark3.2.0_python3.8
本机安装PySpark3.2.0__python3.8相关需求安装Anaconda安装JDK然后配置相关环境pandas: 处理小规模数据集Spark: 3.2.0以上结合了pandasAPI 大规模的数据集处理1.JDK安装1-1 直接默认安装,然后配置环境变量1-2 点击path配置添加如下win+r->cmd->javajavacjava -version #jdk版本查看jdk是否配置成功2.安装spark并配置相关环境变量解压到指定目录原创 2022-03-08 14:34:32 · 2696 阅读 · 7 评论