2017年11月_夜空07

转载 Kafka（自带的zookeeper）集群搭建详细步骤

Kafka集群搭建1、 Kafka的安装需要java环境，cent os 7自带java1.6版本，可以不用重新安装，直接使用自带的jdk 即可；如果觉得jdk版本太旧，也可以自己重新安装；2、准备好kafka安装包，官网下载地址： http://kafka.apache.org/downloads.html3、下载好kafka安装包后，将其解压到/usr/local目录下，删

2017-11-22 17:36:00 9187 1

转载【Spark Java API】Action(3)—foreach、foreachPartition、lookup

foreach官方文档描述：Applies a function f to all elements of this RDD.12函数原型：def foreach(f: VoidFunction[T])1foreach用于遍历RDD,将函数f应用于每一个元素。源码分析：def foreach(f: T => Unit): Unit = withScope {

2017-11-13 22:00:16 461

转载 spark streaming - kafka updateStateByKey 统计用户消费金额

场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额，我们可以使用updateStateByKey来实现从kafka接收用户消费json数据，统计每分钟用户的消费情况，并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现)数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}

2017-11-13 21:57:54 590 1

转载 Spark-Streaming之window滑动窗口应用

Spark-Streaming之window滑动窗口应用，Spark Streaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据，会被聚合起来执行计算操作，然后生成的RDD，会作为window DStream的一个RDD。网官图中所示，就是对每三秒钟的数据执行一次滑动窗口计算，这3秒内的3个RDD会被聚合起来进行处理，然后过了两

2017-11-13 21:55:40 214

转载 Spark中的checkpoint作用与用法

checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完全不会丢失,存储的这个内存出问

2017-11-13 21:53:47 312

转载 spark JavaDirectKafkaWordCount 例子分析

spark JavaDirectKafkaWordCount 例子分析：1、KafkaUtils.createDirectStream( jssc, String.class, String.class, StringDecoder.class, StringDecoder.class, kafkaPar

2017-11-13 16:52:24 410

转载 spark streaming 接收 kafka 数据java代码WordCount示例

spark streaming 接收 kafka 数据java代码WordCount示例1. 首先启动zookeeper2. 启动kafka3. 核心代码生产者生产消息的java代码，生成要统计的单词package streaming;import java.util.Properties; import kafka.javaapi.pro

2017-11-13 10:39:40 867

转载 Spark Streaming---HDFSwordcount

package com.spark.streaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function

2017-11-09 16:40:38 217 1

转载 Spark Streaming开发入门——WordCount（Java&Scala）

一、Java方式开发1、开发前准备假定您以搭建好了Spark集群。2、开发环境采用eclipse maven工程，需要添加Spark Streaming依赖。 dependency> groupId>org.apache.sparkgroupId> artifactId>spark-streaming_2.10artifactId> ver

2017-11-09 14:20:29 227 3

转载详解spark sql用户自定义函数:UDF与UDAF

参考Spark官网王家林DT大数据梦工厂场景UDAF = USER DEFINED AGGREGATION FUNCTION1上一篇文章已经介绍了spark sql的窗口函数，并知道spark sql提供了丰富的内置函数供猿友们使用，辣为何还要用户自定义函数呢？实际的业务场景可能很复杂，内置函数hold不住，所以spark sql提供了可扩展的内置函数接口：哥们，你的业务太

2017-11-09 09:29:47 602

原创 Spark简单函数 JAVA/SCALA

一，用JAVA编写的一些Spark函数 package com.css.ideaSpark; import org.apache.spark.Accumulator; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.jav

2017-11-01 16:03:46 267 2

转载 Spark的高级排序（二次排序）

为了多维的排序，需要考虑多个条件，这要求我们自定义key1 233 223 311 122 114 45123456二、使用java实现2.1、自定义key使用scala.math.Ordered接口,实现Serializable接口package com.chb.sparkDemo.secondarySort;import java.io.Serializabl

2017-11-01 14:42:23 207

weixin_38655836的博客