![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark Streaming
文章平均质量分 80
Running_Tiger
这个作者很懒,什么都没留下…
展开
-
Spark Streaming特点
Spark Streaming特点 1、易用 2、容错 3、易整合到Spark体系 4、SparkStreaming与Storm的对比 SparkStreaming Storm 开发语言:Scala 开发语言:Clojure 编程模型:DStream 编程模型:Spout/Bolt 喜欢就点赞评论...原创 2018-03-11 13:52:11 · 2304 阅读 · 0 评论 -
Spark Streaming整合flume实战(一)
Spark Streaming从flume 中拉取数据 Spark Streaming对接Flume有两种方式 Poll:Spark Streaming从flume 中拉取数据 Push:Flume将消息Push推给Spark Streaming 1、安装flume1.6以上 2、下载依赖包 spark-streaming-flume-sink_2.11-2.0.2.jar放...原创 2018-03-12 21:14:27 · 368 阅读 · 0 评论 -
Spark Streaming整合kafka实战(二)
KafkaUtils.createDirectStream方式 KafkaUtils.createDirectStream方式不同于Receiver接收数据,这种方式定期地从kafka的topic下对应的partition中查询最新的偏移量,再根据偏移量范围在每个batch里面处理数据,Spark通过调用kafka简单的消费者Api读取一定范围的数据。 架构图如下: 相比基于Receiv...原创 2018-03-12 21:17:05 · 314 阅读 · 0 评论 -
Spark Streaming整合kafka实战(一)
KafkaUtils.createDstream方式 在spark1.3版本后,kafkaUtils里面提供了两个创建dstream的方法: KafkaUtils.createDstream KafkaUtils.createDirectStream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-to...原创 2018-03-12 21:16:48 · 343 阅读 · 0 评论 -
Spark Streaming整合flume实战(二)
flume将消息Push推给Spark Streaming 1、配置采集方案 vi flume-push.conf #push mode a1.sources = r1 a1.sinks = k1 a1.channels = c1 #source a1.sources.r1.channels = c1 a1.sources.r1.type = spooldir a1.sources....原创 2018-03-12 21:16:30 · 219 阅读 · 0 评论 -
DStream操作实战(四)
SparkStreaming开窗函数统计一定时间内的热门词汇 1、代码实现 package cn.cheng.spark import org.apache.spark.rdd.RDD import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.st...原创 2018-03-12 21:13:52 · 968 阅读 · 0 评论 -
DStream操作实战(三)
SparkStreaming开窗函数reduceByKeyAndWindow 实现单词计数 1、代码实现 package cn.cheng.spark import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streaming.{Seconds,...原创 2018-03-12 21:13:37 · 756 阅读 · 0 评论 -
DStream操作实战(二)
SparkStreaming接受socket数据,实现单词计数累加 DStream操作实战(一)案例中存在这样一个问题:每个批次的单词次数都被正确的统计出来,但是结果不能累加!如果需要累加需要使用updateStateByKey(func)来更新状态。 1、代码实现 package cn.cheng.spark import org.apache.spark.streaming.d...原创 2018-03-12 21:13:17 · 810 阅读 · 0 评论 -
DStream操作实战(一)
SparkStreaming接受socket数据,实现单词计数WordCount1、架构图2、实现流程2.1、安装并启动生产者首先在linux服务器上用YUM安装nc工具,nc命令是netcat命令的简称,都是用来设置路由器。我们可以利用它向某个端口发送数据。yum install -y nc2.2、通过netcat工具向指定的端口发送数据 nc -lk 9999 2.3、编写Spark St原创 2018-03-11 14:40:42 · 2345 阅读 · 0 评论 -
DStream相关操作
DStream相关操作DStream上的操作与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的操作,如:updateStateByKey()、transform()以及各种Window相关的操作。1、Transformations Transformation 含义 map(func) 对DStr原创 2018-03-11 14:21:47 · 5302 阅读 · 0 评论 -
Spark Streaming的基础抽象DStream
Spark Streaming的基础抽象DStreamDStream概念 Discretized Stream是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark算子操作后的结果数据流。在内部实现上,DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据,如下图:对数据的操作也是按照RDD为单位来进行的Spark Streaming使用数据源产生原创 2018-03-11 14:07:41 · 1223 阅读 · 0 评论 -
Spark Streaming原理
Spark Streaming原理1、Spark Streaming原理Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。2、Spark Streaming计算流程Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core,也就是把S原创 2018-03-11 14:02:25 · 757 阅读 · 0 评论 -
hive on spark
hive on spark 1.下载apache-hive-2.0.0-bin.tar.gz 注意:尽量安装和hive版本的spark 版本的查看可以通过查看当前源码下的pom.xml文件,看其他对应的应用版本 2.下载安装maven工具 下载地址:http://maven.apache.org/download.cgi 配置环境变量 3.安装对应版本的scala ...原创 2018-03-13 08:38:39 · 362 阅读 · 0 评论