![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
初入小萌新
这个作者很懒,什么都没留下…
展开
-
Spark和Hadoop的区别
Spark是基于内存的一种计算框架(有时也会用磁盘,比如Spark Shuffle的时候),但是很多操作,比如单纯的map操作,没有reduce操作;或者是filter类的操作,都是可以直接基于内存进行计算的 MapReduce的计算模型非常固定,必须基于磁盘,以及大量的网络传输 所以,Spark的速度可以比MapReduce,Hive快很多 SparkSQL只是替代Hive的计算引擎 ...原创 2018-08-06 11:39:10 · 823 阅读 · 0 评论 -
Spark中RDD的依赖关系
RDD的依赖关系有两种,一个是宽依赖,一个是窄依赖 宽依赖,就像以前的偷生游击队 父的Partition可以被很多子依赖使用 窄依赖,就像实施了独生子女政策后,只能有一个 即 父的Partition只能被一个子依赖所使用...原创 2018-08-14 08:50:34 · 460 阅读 · 0 评论 -
Spark aggergate算子的原理
//输出的是0 1 因为 ""和 "12" "23"比较最小的是0,而这个结果返回的是0,0.toString之后长度为1了,所以第一个分区的值应该是1, // 1和"333"的长度比较,最小的是1,又和""比较,最小的是0 所以最后输出的是0 1 val rdd5 = sc.parallelize(List("12","23","333"原创 2018-08-15 19:46:23 · 339 阅读 · 0 评论 -
kafka API练习
生产者层面 package Kafka import java.util.Properties import kafka.producer.{KeyedMessage, Producer, ProducerConfig} object KafkaProducerTest { def main(args: Array[String]): Unit = { //定义topic...原创 2018-08-18 17:51:24 · 270 阅读 · 0 评论 -
读取Kafka数据并作单词计数
读取Kafka数据并计数的代码 package SparkStream import org.apache.spark.{HashPartitioner, SparkConf} import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.dstream.{DStream, ReceiverInp...原创 2018-08-20 10:05:17 · 336 阅读 · 0 评论 -
SparkStreaming 读取NC,并单词计数
package SparkStream import org.apache.spark.{HashPartitioner, SparkConf} import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streaming.{Seconds, Streami...原创 2018-08-20 10:14:41 · 885 阅读 · 0 评论 -
Java实现 SparkStreaming读取Kafka数据,并且单词累加计数
网络上大部分文章都没有做到真正的单词累加计数,终于研究完以后成功实现 简单的Kafka生产者 package com.zwj.utils; import kafka.javaapi.producer.Producer; import kafka.producer.KeyedMessage; import kafka.producer.ProducerConfig; import org.a...原创 2018-08-24 11:16:04 · 4939 阅读 · 1 评论