spark
文章平均质量分 73
k_wzzc
wzzc
展开
-
Spark PairRDDFunctions(reduceByKey、combineByKey、aggregateByKey、groupBykey之间的区别和联系)
spark 键值对RDD算子简介 :reduceByKey、combineByKey、aggregateByKey、groupBykey之间的区别和联系原创 2023-02-10 20:09:30 · 231 阅读 · 0 评论 -
CH_8 Adaboost及其Spark实现
Adaboost算法原理及其Spark实现原创 2023-02-06 22:49:00 · 311 阅读 · 0 评论 -
Spark map&mapPartition的区别
Spark map&mapPartition原创 2023-02-05 22:09:40 · 166 阅读 · 0 评论 -
Spark ML 学习:Pipline
PiplinePiplines:就是一个工作流程,其中包含要按特定顺序运行的一系列PiplineStages(Transformer和Estimators);一个Pipline在结构上包含一个或多个Stage,每个Stage都会完成一个任务(数据处理、数据装换、模型训练、参数设置等)Transformers:将一个DataFrame转换成另一个DataFrameEstimators:主要做模型拟合,用来生成一个transformer。其他相关概念:DataFrameParame原创 2020-06-10 22:18:13 · 233 阅读 · 0 评论 -
Spark 本地连接OSS
Spark 本地连接OSS1. 对象存储 OSS阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。在使用Hadoop和Spark及其周边系统来处理和分析自己的数据时,则需要创建阿里云的E-MapReduce集群进行处理。但是有时候,我们需要在本地环境下对程序进行调试,所以 本地的Spark环境能连接OSS...原创 2019-10-28 22:13:47 · 2036 阅读 · 1 评论 -
Spark DataFrame中rollup和cube使用
Spark DataFrame中rollup和cube使用我们平时在做报表的时候,经常会有各种分维度的汇总计算,在spark中我们最常用的就是groupBy操作,groupBy就是按照给定的字段名分组,后面接sum、count、avg等聚合操作;在spark中也提供了rollup、cube这样的分组函数,接下来本文就以一个实例展示一下这两个函数的作用。我们先来看个需求:下面的表是某公司最近两年...原创 2019-07-28 20:06:54 · 892 阅读 · 0 评论 -
Spark实现高斯朴素贝叶斯
Spark实现高斯朴素贝叶斯import breeze.stats.distributions.Gaussianimport org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.linalg.DenseVectorimport org.apache.spark.sql.SparkSessionimpo...原创 2019-06-07 23:40:43 · 391 阅读 · 0 评论 -
Spark实现Canopy聚类算法
Spark实现Canopy聚类算法为什么需要Canopy算法Canopy算法一般是为其他聚类算法的一种聚类方法,常用的聚类如 K-means 等聚类算法都需要事先k值(即聚类个数),并且会随机选择k个初始聚类中心。这种实现指定的k和随机初始化的聚类中心不仅会降低聚类算法的效率,而且得到的结果也可能是局部最优的。Canopy算法就可以解决以上问题。Canopy算法的步骤Canopy算法的核心...原创 2019-05-21 23:01:16 · 1170 阅读 · 0 评论 -
CH2_(扩展)线性感知机算法(Pocket PLA)及其Spark实现
Spark 实现优化的线性感知机算法:Pocket PLAimport breeze.linalg.{DenseVector => densevector}import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.linalg.DenseVectorimport org.apache.sp...原创 2019-03-16 21:56:00 · 349 阅读 · 2 评论 -
判别三连之三:Spark 分布式实现贝叶斯判别
Spark 分布式实现贝叶斯判别贝叶斯公式假设事件B1,B2...Bn是样本空间Ω的一个分割,且他们各自的概率为P(B1),P(B2),P(Bn)假设事件 B_1,B_2...B_n 是样本空间Ω的一个分割,且他们各自的概率为P(B_1),P(B_2),P(B_n)假设事件B1,B2...Bn是样本空间Ω的一个分割,且他们各自的概率为P(B1),P(B2),P(Bn)A是事件Ω...原创 2019-03-03 18:16:41 · 491 阅读 · 0 评论 -
判别三连之一:Spark 分布式实现线性判别分析(二分类问题)
Spark 分布式实现线性判别分析(二分类问题)线性判别分析(LDA)线性判别分析(linear discriminant analysis)是一种经典的线性学习方法,在二分类问题上最早由Fisher在1936年提出,亦称Fisher线性判别。其中心思想是:将样本集投影到一条直线上,使投影到直线上的同类样本之间差异尽可能的小;使不同类样本间的差异尽可能的大。线性判别分析是一种有监督的分类学习方...原创 2019-02-24 23:45:19 · 739 阅读 · 0 评论 -
判别三连之二:Spark 分布式实现距离判别分析
Spark 分布式实现距离判别分析距离判别设有两个总体G1,G2,从第一个总体抽取n个样本,从第二个总体中抽取m个样本,每个样本都有p个测量指标。取任一样本实测指标为X=(x1,x2,……xp)’,分别计算X到两个总体的距离D1,D2,按距离最近准则判别归类。距离计算公式(马氏距离):判别公式:数据展示与说明某商场从市场随机抽取20中品牌的电视机进行调查,其中13中畅销,7种滞销...原创 2019-02-27 22:23:35 · 423 阅读 · 0 评论 -
Spark DataFrame 用户自定义(聚合)函数
Spark Sql 自定义函数在Spark中,自定义函数可以分为两种:UDF(User-Defined-Function),即最基本的自定义函数。类似 lit、sqrt之类的函数,数对每一条数据处理。输入和输出是一对一的关系。UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数。类似sum、count之类的函数,是对数据按一定规则分组之后的...原创 2019-01-21 21:26:31 · 5544 阅读 · 1 评论 -
Spark DataFrame 添加自增id
Spark DataFrame 添加自增id在用SparkSQL 处理数据的时候,经常需要给全量数据增加一列自增ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。在DataFrame的API中没有实现这一功能,所以只能通过其他方式实现,或者转成RDD再用RDD的 zipWithIndex 算子实现。下面呢就介绍两种实现方式方式一:利用窗口函数// 加载数据val datafr...原创 2018-12-13 22:44:26 · 6796 阅读 · 4 评论 -
Spark -- 数据的特征缩放(Feature scaling)
Spark – 数据的特征缩放(Feature scaling)特征缩放:有的叫数据归一化,有的叫数据标准化,其实两者有着一些差别,但是大多数时候都是表达的一个意思,它的目的就是使数据缩小范围。具体的介绍请参照维基百科。在spark中就提供了常用的这几种特征缩放方法NormalizerStandardScalerMinMaxScalerMaxAbsScaler在spark提供的这...原创 2018-12-06 13:25:41 · 428 阅读 · 0 评论 -
基于 SparkGraphx 实现 适用于位置信息的 DBScan聚类
基于 SparkGraphx 实现的 DBScan聚类关于DBScan算法的详细介绍请参见维基百科https://en.wikipedia.org/wiki/DBSCANGraphx 实现Dbscan 图解原创 2018-11-14 23:03:47 · 1708 阅读 · 8 评论