![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
leboop-L
学习 分享
展开
-
Spark RDD和DataSet与DataFrame转换成RDD
Spark RDD和DataSet与DataFrame转换成RDD一、什么是RDD RDD是弹性分布式数据集(resilient distributed dataset) 的简称,是一个可以参与并行操作并且可容错的元素集合。什么是并行操作呢?例如,对于一个含4个元素的数组Array,元素分别为1,2,3,4。如果现在想将数组的每个元素放大两倍,Java实现通常是遍历数组的每个...原创 2018-08-10 15:29:18 · 4510 阅读 · 0 评论 -
Spark DataFrame及RDD与DataSet转换成DataFrame
一、什么是DataFrame DataFrame和RDD一样,也是Spark的一种弹性分布式数据集,它是一个由列组成的数据集,概念上等同于关系型数据库中的一张表。DataFrame可以从非常宽泛的数据源中的构建,比如结构化的数据文件,Hive中的表,外部数据库,或者已经创建好的RDDs等等。在Scala和Java中,DataFrame由行数据集表示。在Scala API中,Dat...原创 2018-08-10 21:54:50 · 2231 阅读 · 0 评论 -
Spark DataSet和RDD与DataFrame转换成DataSet
一、什么是DataSet DataSet同RDD和DataFrame一样,也是Spark的一种弹性分布式数据集。它是Spark 1.6增加的新接口。我们可以从JVM的对象构造一个DataSet,然后使用map,flatMap,filter等等这样的函数式变换操作它。 二、创建DataSet 首先需要导入Spark Core、Spark SQL、Hadoo...原创 2018-08-10 23:54:13 · 2711 阅读 · 0 评论 -
Spark 2.3.0 用户自定义聚合函数UserDefinedAggregateFunction和Aggregator
Spark 2.3.0 用户自定义聚合函数UserDefinedAggregateFunction和Aggregator 一、无类型的用户自定于聚合函数(Untyped User-Defined Aggregate Functions)实现无类型的用户自定于聚合函数需要继承抽象类UserDefinedAggregateFunction,并重写该类的8个函数。我们以计算数据类型为Double...原创 2018-08-11 17:55:21 · 3710 阅读 · 2 评论 -
Spark 2.3.0 Structured Streaming详解
一、什么是Structured Streaming 结构化流(Structured Streaming)是一个建立在Spark SQL引擎之上可扩展且容错的流处理引擎。你可以使用与静态数据批处理计算相同的方式来表达流计算。当不断有流数据到达时,Spark SQL引擎将会增量地、连续地计算它们,然后更新最终的结果。最后,系统通过检查点和预写日志的方式确保端到端只执行一次的容错保证。...原创 2018-08-13 21:29:19 · 9896 阅读 · 1 评论 -
Spark MLlib交替最小二乘法ALS源码解析
请先阅读leboop发布的博文《Spark MLlib协同过滤之交替最小二乘法ALS原理与实践》。核心代码如下://定义ALS,参数初始化val als = new ALS().setRank(50) .setMaxIter(10) .setRegParam(0.01) .setUserCol("userId") .setItemCol(...原创 2020-04-14 08:27:41 · 509 阅读 · 0 评论 -
Spark MLlib中协同过滤之交替最小二乘法ALS原理与实践
请先阅读leboop发布的博文《Apache Mahout之协同过滤原理与实践》。 基于用户和物品的协同过滤推荐都是建立在一个用户-物品评分矩阵(user-item-score)展开的,其本质是利用现有数据填充矩阵的缺失项(missing entries),也就是预测评分。基于用户的协同过滤通过该评分矩阵来度量用户间的相似度(余弦相似度,距离相似度,皮尔森相似度...原创 2018-08-16 18:34:23 · 4881 阅读 · 10 评论 -
Spark submit执行WordCount报错: cannot assign instance of scala.collection.immutable.List$S
使用Spark写的WordCount程序如下:package rddimport org.apache.spark.{SparkConf, SparkContext}/** * Created by leboop on 2019/3/11. */object WordCount { private val hdfsUrl="hdfs://bigdata111:900...原创 2019-03-11 18:24:10 · 6255 阅读 · 0 评论 -
Spark源码阅读环境搭建(基于idea+maven和eclipse+sbt)
本实验提供两种方式编译spark源码(1)idea+maven需要安装好idea、maven和scala,并配置好对应的环境变量。(2)eclipse+sbt需要安装好Eclipse Scala IDE、sbt和scala,并配置好对应的环境变量。Eclipse Scala IDE是Eclipse专门用于开发Scala程序的IDE。(3)版本spark-2.1.0sca...原创 2019-03-28 10:09:18 · 1452 阅读 · 0 评论