Scala
少心
这个作者很懒,什么都没留下…
展开
-
SparkSession的三种创建方式
/** * 创建SparkSession方式1 */ val sparkSession1 = SparkSession.builder() .appName("SparkSQLDemo") .master("local") .getOrCreate()/** * 创建SparkSession方式2 */ val conf = new SparkCo...原创 2019-07-12 19:06:54 · 13401 阅读 · 1 评论 -
Spark中RDD转换为DataFrame的三种方式
RDD转换为DataFrame原创 2019-07-12 20:30:45 · 1876 阅读 · 0 评论 -
Spark之RDD的mapPartitions算子
mapPartitions作用是通过向这个RDD的每个分区应用一个函数来返回一个新的RDD。源码:f: Iterator[T] => Iterator[U]应用场景:当数据量不太大的时候,可以用mapPartitions,可以提高运行效率当数据量太大的时候,有可能会发生oom举例说明:1.初始化RDD,我们以2个分区的简单RDD如图所示为例2.我们假设需求是将RDD中的元...原创 2019-07-04 10:32:35 · 5214 阅读 · 0 评论 -
Scala实现wordCount
废话不多说直接上代码val list = List("rose is beautiful","jennie is beautiful","lisa is beautiful","jisoo is beautiful") /** * 第一步,将list中的元素按照分隔符这里是空格拆分,然后展开 * 先map(_.split(" "))将每一个元素按照空格拆分 ...原创 2019-07-10 19:13:34 · 9557 阅读 · 1 评论 -
Spark实现wordCount(Scala版本)
废话不多说直接上代码/** * 初始化 */ val conf = new SparkConf().setAppName("wordCount").setMaster("local[2]") val sc = new SparkContext(conf) val list = sc.makeRDD(List("Lisa Jennie Rosé Ji...原创 2019-07-10 21:53:10 · 469 阅读 · 0 评论 -
Kafka的学习笔记
1、Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。KAFKA + STORM +REDIS1.Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2.Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项...原创 2019-07-16 21:30:34 · 213 阅读 · 3 评论