hive on spark

hive on spark 1.下载apache-hive-2.0.0-bin.tar.gz 注意:尽量安装和hive版本的spark 版本的查看可以通过查看当前源码下的pom.xml文件,看其他对应的应用版本 2.下载安装maven工具 下载地址:http://maven....

2018-03-13 08:38:39

阅读数 83

评论数 0

Spark Streaming整合kafka实战(二)

KafkaUtils.createDirectStream方式 KafkaUtils.createDirectStream方式不同于Receiver接收数据,这种方式定期地从kafka的topic下对应的partition中查询最新的偏移量,再根据偏移量范围在每个batch里面处理数据,Spar...

2018-03-12 21:17:05

阅读数 82

评论数 0

Spark Streaming整合kafka实战(一)

KafkaUtils.createDstream方式 在spark1.3版本后,kafkaUtils里面提供了两个创建dstream的方法: KafkaUtils.createDstream KafkaUtils.createDirectStream 构造函数为KafkaUtils.cr...

2018-03-12 21:16:48

阅读数 103

评论数 0

Spark Streaming整合flume实战(二)

flume将消息Push推给Spark Streaming 1、配置采集方案 vi flume-push.conf #push mode a1.sources = r1 a1.sinks = k1 a1.channels = c1 #source a1.sources.r1.chan...

2018-03-12 21:16:30

阅读数 84

评论数 0

Spark Streaming整合flume实战(一)

Spark Streaming从flume 中拉取数据 Spark Streaming对接Flume有两种方式 Poll:Spark Streaming从flume 中拉取数据 Push:Flume将消息Push推给Spark Streaming 1、安装flume1.6以上 ...

2018-03-12 21:14:27

阅读数 129

评论数 0

DStream操作实战(四)

SparkStreaming开窗函数统计一定时间内的热门词汇 1、代码实现 package cn.cheng.spark import org.apache.spark.rdd.RDD import org.apache.spark.streaming.dstream.{DStrea...

2018-03-12 21:13:52

阅读数 478

评论数 0

DStream操作实战(三)

SparkStreaming开窗函数reduceByKeyAndWindow 实现单词计数 1、代码实现 package cn.cheng.spark import org.apache.spark.streaming.dstream.{DStream, ReceiverInputD...

2018-03-12 21:13:37

阅读数 363

评论数 0

DStream操作实战(二)

SparkStreaming接受socket数据,实现单词计数累加 DStream操作实战(一)案例中存在这样一个问题:每个批次的单词次数都被正确的统计出来,但是结果不能累加!如果需要累加需要使用updateStateByKey(func)来更新状态。 1、代码实现 package ...

2018-03-12 21:13:17

阅读数 379

评论数 0

DStream操作实战(一)

SparkStreaming接受socket数据,实现单词计数WordCount1、架构图2、实现流程2.1、安装并启动生产者首先在linux服务器上用YUM安装nc工具,nc命令是netcat命令的简称,都是用来设置路由器。我们可以利用它向某个端口发送数据。yum install -y nc2....

2018-03-11 14:40:42

阅读数 714

评论数 0

DStream相关操作

DStream相关操作DStream上的操作与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的操作,如:updateStateByKey()、transform()以及各种Window相关的操作。1、Tran...

2018-03-11 14:21:47

阅读数 2595

评论数 0

Spark Streaming的基础抽象DStream

Spark Streaming的基础抽象DStreamDStream概念 Discretized Stream是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark算子操作后的结果数据流。在内部实现上,DStream是一系列连续的RDD来表示。每个RDD含有一段时间间...

2018-03-11 14:07:41

阅读数 364

评论数 0

Spark Streaming原理

Spark Streaming原理1、Spark Streaming原理Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。2、Spark Streaming计算流程Spark Str...

2018-03-11 14:02:25

阅读数 477

评论数 0

Spark Streaming特点

Spark Streaming特点 1、易用 2、容错 3、易整合到Spark体系 4、SparkStreaming与Storm的对比 SparkStreaming Storm 开发语言:Scala 开发语言:Clo...

2018-03-11 13:52:11

阅读数 969

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭