独立小桥风满袖的博客

热爱软件,喜欢编程的阳光小伙子

排序:
默认
按更新时间
按访问量

hive安装过程全程解析、hive常规操作、说明

hive安装过程全程解析、hive常规操作、说明

2017-06-29 17:58:56

阅读数:335

评论数:0

13.window滑动窗口以及热点搜索词滑动统计案例实战

window滑动窗口 Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。比如下图中,就是对每三秒钟的数据执行一次滑动...

2017-11-18 21:52:16

阅读数:239

评论数:0

12.transform以及实时黑名单过滤案例实战

transform以及实时黑名单过滤案例实战 transform操作,应用在DStream上时,可以用于执行任意的RDD到RDD的转换操作。它可以用于实现,DStream API中所没有提供的操作。比如说,DStream API中,并没有提供将一个DStream中的每个batch,与一个特定的RD...

2017-11-18 21:45:38

阅读数:326

评论数:2

11.updateStateByKey以及基于缓存的实时wordcount程序

updateStateByKey updateStateByKey操作,可以让我们为每个key维护一份state,并持续不断的更新该state。 1、首先,要定义一个state,可以是任意的数据类型; 2、其次,要定义state更新函数——指定一个函数如何使用之前的state和新值来更新state...

2017-11-18 21:40:47

阅读数:150

评论数:0

10.DStream的transformation操作概览

transformation操作概览(一) Transformation Meaning map 对传入的每个元素,返回一个新的元素 flatMap 对传入的每个元素,返回一个或多个元素 filter 对传入的元素返回true或false,返回的f...

2017-11-18 21:35:10

阅读数:129

评论数:0

9.输入DStream之Kafka数据源实战(基于Direct的方式)

基于Direct的方式 这种新的不基于Receiver的直接方式,是在Spark 1.3中引入的,从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后,这种方式会周期性地查询Kafka,来获得每个topic+partition的最新的offset,从而定义每个batch的offset...

2017-11-16 22:45:00

阅读数:190

评论数:0

8.输入DStream之Kafka数据源实战(基于Receiver的方式)

基于Receiver的方式 这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据...

2017-11-16 22:39:46

阅读数:166

评论数:0

7.Spark Streaming:输入DStream之基础数据源以及基于HDFS的实时wordcount程序

输入DStream之基础数据源 HDFS文件 基于HDFS文件的实时计算,其实就是,监控一个HDFS目录,只要其中有新文件出现,就实时处理。相当于处理实时的文件流。 streamingContext.fileStream(dataDirectory) streamingContext.fil...

2017-11-16 22:32:25

阅读数:151

评论数:0

6.Spark Streaming:输入DStream和Receiver详解

输入DStream和Receiver详解(一)  输入DStream代表了来自数据源的输入数据流。在之前的wordcount例子中,lines就是一个输入DStream(JavaReceiverInputDStream),代表了从netcat(nc)服务接收到的数据流。除了文件数据流之外,所有的...

2017-11-16 22:30:33

阅读数:283

评论数:0

5.Spark Streaming:StreamingContext详解

StreamingContext详解(一) 有两种创建StreamingContext的方式: val conf = new SparkConf().setAppName(appName).setMaster(master); val ssc = new StreamingContext(conf...

2017-11-16 22:23:55

阅读数:179

评论数:0

4.Spark Streaming:实时wordcount程序开发

1、安装nc工具:yum install nc,然后运行nc -lk 9999 2、开发实时wordcount程序 java版本 package cn.spark.study.streaming; import java.util.Arrays; import org.apache.sp...

2017-11-16 21:30:19

阅读数:97

评论数:0

14.Spark SQL:UDAF自定义聚合函数实战

UDAF自定义函数实战 UDAF:User Defined Aggregate Function。用户自定义聚合函数。是Spark 1.5.x引入的最新特性。   UDF,其实更多的是针对单行输入,返回一个输出 这里的UDAF,则可以针对多行输入,进行聚合计算,返回一个输出,功能更加强大 ...

2017-11-16 21:27:25

阅读数:746

评论数:0

3.Spark Streaming:与Storm的对比分析

Spark Streaming与Storm的优劣分析 事实上,Spark Streaming绝对谈不上比Storm优秀。这两个框架在实时计算领域中,都很优秀,只是擅长的细分场景并不相同。 Spark Streaming仅仅在吞吐量上比Storm要优秀,而吞吐量这一点,也是历来挺Spark ...

2017-11-14 22:19:49

阅读数:82

评论数:0

2.Spark Streaming:基本工作原理

Spark Streaming简介 Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并...

2017-11-14 22:05:56

阅读数:169

评论数:0

1. 大数据实时计算介绍

Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架。它的底层,其实,也是基于我们之前讲解的Spark Core的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。 只不多,针对实时计算的特点...

2017-11-14 22:03:37

阅读数:750

评论数:0

13.Spark SQL:UDF自定义函数实战

UDF:User Defined Function。用户自定义函数。 scala版本 package cn.spark.study.sql import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; ...

2017-11-14 22:00:39

阅读数:218

评论数:0

Spark算子操作

Spark支持两种RDD操作:transformation和action。transformation操作会针对已有的RDD创建一个新的RDD;而action则主要是对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并可以返回结果给Driver程序。例如,map就是一种transfor...

2017-11-02 17:51:15

阅读数:162

评论数:0

Spark基本工作原理与RDD

RDD以及其特点 1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。 2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分...

2017-11-02 17:41:30

阅读数:237

评论数:0

11.Spark SQL:内置函数以及每日uv

Spark SQL:内置函数以及每日uv java版本: package cn.spark.study.sql; import java.util.Arrays; import java.util.List; import org.apache.spark.SparkConf; i...

2017-11-02 17:27:12

阅读数:226

评论数:0

12.Spark SQL:开窗函数以及top3销售额统计案例实战

Spark 1.4.x版本以后,为Spark SQL和DataFrame引入了开窗函数,比如最经典,最常用的,row_number(),可以让我们实现分组取topn的逻辑。 案例:统计每个种类的销售额排名前3的产品 java版本 package cn.spark.study.sql; im...

2017-11-02 17:23:43

阅读数:743

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭