Spark
文章平均质量分 92
雪泪寒飞起来
这个作者很懒,什么都没留下…
展开
-
Spark基础:(一)初识Spark
1、Spark中的Python和Scala的Shell (1): Python的Spark Shell 也就是我们常说的PySpark Shell进入我们的Spark目录中然后输入 bin/pyspark (2): Scala中的Shell bin/spark-shell 利用spark进行行数的统计 例如...原创 2018-08-03 21:34:57 · 281 阅读 · 0 评论 -
Spark基础:(六)Spark SQL
1、相关介绍 Datasets:一个 Dataset 是一个分布式的数据集合 Dataset 是在 Spark 1.6 中被添加的新接口, 它提供了 RDD 的优点(强类型化, 能够使用强大的 lambda 函数)与Spark SQL执行引擎的优点。 DataFrame: 一个 DataFrame 是一个 Dataset 组成的指定列。、 SparkSession: Spark SQL中所有...原创 2018-08-07 21:46:20 · 269 阅读 · 0 评论 -
Spark产生数据倾斜的原因以及解决办法
Spark数据倾斜 产生原因 首先RDD的逻辑其实时表示一个对象集合。在物理执行期间,RDD会被分为一系列的分区,每个分区都是整个数据集的子集。当spark调度并运行任务的时候,Spark会为每一个分区中的数据创建一个任务。大部分的任务处理的数据量差不多,但是有少部分的任务处理的数据量很大,因而Spark作业会看起来运行的十分的慢,从而产生数据倾斜(进行shuffle的时候)。 数据倾斜只...原创 2018-08-03 10:53:57 · 2658 阅读 · 0 评论 -
Spark基础:(七)Spark Streaming入门
是的深V原创 2018-08-07 14:09:02 · 161 阅读 · 0 评论 -
Spark基础:(五)Spark编程进阶
共享变量 (1)累加器:是用来对信息进行聚合的,同时也是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。 Spark内置的提供了Long和Double类型的累加器 object AccumulatorDemo { def main(args: Array[String])...原创 2018-08-06 16:55:22 · 536 阅读 · 0 评论 -
Spark基础:(四)Spark 数据读取与保存
1、文件格式 Spark对很多种文件格式的读取和保存方式都很简单。 (1)文本文件 读取: 将一个文本文件读取为一个RDD时,输入的每一行都将成为RDD的一个元素。 val input=sc.textFile("...") 也可以将多个完整的文本文件读取为一个pair RDD,其中键为文件名,值是文件内容。 例如: val input=sc.whoTextFiles("..."...原创 2018-08-04 21:50:48 · 994 阅读 · 0 评论 -
Spark基础:(三)Spark 键值对操作
1、pair RDD的简介 Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD就被称为pair RDD 那么如何创建pair RDD呢? 在不同的语言中有着不同的创建方式 在python和Scala语言中创建的方式都是差不多的。 在java语言中: java用户还需要调用专门的Spark函数mapToPair()来创建pair RDD。例如: //映射,word...原创 2018-08-04 14:14:12 · 381 阅读 · 0 评论 -
Spark基础:(二)Spark RDD编程
1、RDD基础 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在分区的不同节点上。 用户可以通过两种方式创建RDD: (1)读取外部数据集====》 sc.textFile(inputfile) (2)驱动器程序中对一个集合进行并行化===》sc.parallelize(List(“pandas”,”I like pandas”)) 2、...原创 2018-08-03 22:32:00 · 156 阅读 · 0 评论 -
Spark相关知识点(一)
spark工作机制,哪些角色,作用。 spark yarn模式下的cluster模式和client模式有什么区别。原创 2018-08-29 19:29:28 · 230 阅读 · 0 评论