![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
王 大 柱
一生很短,人很渺小,游历四方,看遍山河,珍惜眼前人。
展开
-
SparkSql随笔(2)
通过Sql来调用使用SparkSql随笔(1)中的数据创建表查询条件查询排序查询分页查询原创 2020-01-02 19:42:03 · 132 阅读 · 0 评论 -
SparkSql随笔(1)
概述Spark为结构化数据处理提供 的模块Spark sql的编程模块通过DataFrame来操作数据,操作方式是同过SQL语句sparkSql有哪些优势?内存列存储DataFrame(数据框,数据表)DataFrame本质是一个RDD,底层是通过转化RDD来操作的,所以可以分布式Sql查询SQLContext上下文的对象,与SparkContext类似数据转变DataFr...原创 2020-01-02 19:06:34 · 152 阅读 · 0 评论 -
Spark MLlib随笔--最小二乘法(1)
最小二乘法它通过最小化误差的平方和寻找数据的最佳函数匹配如下图所示,对于某个数据集(xi, yi) (i=0,1,…,n),我们需要找到一条趋势线(图中的虚线),能够表达出数据集(xi, yi)这些点所指向的方向。用一个直线函数表示这条趋势线:Y=aX+b如果这个样本点位于趋势线的上侧,在残差ξi>0,反之则ξi<0,如果样本点位于趋势线上则ξi=0。将带有残差的直线函数...原创 2019-12-29 20:31:16 · 316 阅读 · 0 评论 -
Spark MLlib随笔--Statistics类(2)
Statistics已经封装好统计量相关的方法 ,如何用scala写出? 练手小题欧氏距离/** * 求:两点间的欧式距离 */object Driver { def main(args: Array[String]): Unit = { val p1 = Array(4,1,2) val p2 = Array(2,5,8)//(4-2)² + (1-5)² ...原创 2019-12-29 19:33:56 · 128 阅读 · 0 评论 -
Spark MLlib随笔--Statistics类(1)
Statistics类数理统计中,基本统计量包括数据的平均值、方差,这是一组求数据统计量的基本内容。在MLlib中,统计量的计算主要用到Statistics类库方法colStats:以列为基础计算统计量的基本数据corr:对两个数据集进行相关系数计算,根据参量的不同,返回值格式有差异import org.apache.spark.mllib.linalg.Vectorsimport...原创 2019-12-29 19:19:33 · 312 阅读 · 0 评论 -
Spark MLlib随笔(1)----向量类型
MLlib使用的本地化存储类型是向量,这里的向量主要由两类构成:稀疏型数据集(spares)和密集型数据集(dense)MLlib库的基本类型:向量类型 Vector主要向Spark提供一组可进行操作的数据集合import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.V...原创 2019-12-29 17:54:22 · 164 阅读 · 0 评论 -
Spark中的共享变量
由于函数在不同的节点上并发执行,但每个内部的变量有不同的作用域,不能相互访问,所以有时会不太方便,Spark提供了两类共享变量供编程使用——广播变量和计数器。广播变量特点:只读(一般设置val 修改更新值没有意义),在所有节点上都以一份缓存使用:object Test01 { def main(args: Array[String]): Unit = { val conf = ...原创 2019-12-29 16:06:34 · 188 阅读 · 0 评论 -
Spark随笔--核心数据结构RDD
概念RDD(弹性分布式数据集),可以看作是一种集合类型(Array,List),可以通过RDD来操作和存储数据;但是与普通的集合是有区别的:- ①RDD有分区机制,可以分布式的进行数据集的处理,从而提高处理速度- ②RDD有容错机制,数据丢失可以恢复- 如何创建RDD方式一:将普通集合(Array,List)转化为RDD①sc.makeRDD(普通集合,分区数) 例如:s...原创 2019-12-26 16:40:45 · 265 阅读 · 0 评论 -
Spark随笔--基本概念
基本概念*spark是一种分布式计算框架:可以离线处理+实时流处理(随着实时到达 进行实时处理)*比较MapReducehadoop中的MapReduce:离线批处理MR中进行业务工作时会产生Shuffle过程(消耗资源严重) MR在Shuffle过程中会产生不必要的排序,导致性能下降-Spark在设计时:引入缓存机制,可以对结果进行缓存减少Shuffle的产生,和不必要的排序...原创 2019-12-26 10:28:31 · 109 阅读 · 0 评论