- 博客(12)
- 收藏
- 关注
转载 Kafka(自带的zookeeper)集群搭建详细步骤
Kafka集群搭建1、 Kafka的安装需要java环境,cent os 7自带java1.6版本,可以不用重新安装,直接使用自带的jdk 即可;如果觉得jdk版本太旧,也可以自己重新安装;2、 准备好kafka安装包,官网下载地址: http://kafka.apache.org/downloads.html3、 下载好kafka安装包后,将其解压到/usr/local目录下,删
2017-11-22 17:36:00 9187 1
转载 【Spark Java API】Action(3)—foreach、foreachPartition、lookup
foreach官方文档描述:Applies a function f to all elements of this RDD.12函数原型:def foreach(f: VoidFunction[T])1foreach用于遍历RDD,将函数f应用于每一个元素。源码分析:def foreach(f: T => Unit): Unit = withScope {
2017-11-13 22:00:16 461
转载 spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现)数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}
2017-11-13 21:57:54 590 1
转载 Spark-Streaming之window滑动窗口应用
Spark-Streaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。网官图中所示,就是对每三秒钟的数据执行一次滑动窗口计算,这3秒内的3个RDD会被聚合起来进行处理,然后过了两
2017-11-13 21:55:40 214
转载 Spark中的checkpoint作用与用法
checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完全不会丢失,存储的这个内存出问
2017-11-13 21:53:47 312
转载 spark JavaDirectKafkaWordCount 例子分析
spark JavaDirectKafkaWordCount 例子分析:1、KafkaUtils.createDirectStream( jssc, String.class, String.class, StringDecoder.class, StringDecoder.class, kafkaPar
2017-11-13 16:52:24 410
转载 spark streaming 接收 kafka 数据java代码WordCount示例
spark streaming 接收 kafka 数据java代码WordCount示例1. 首先启动zookeeper2. 启动kafka3. 核心代码生产者生产消息的java代码,生成要统计的单词package streaming;import java.util.Properties; import kafka.javaapi.pro
2017-11-13 10:39:40 867
转载 Spark Streaming---HDFSwordcount
package com.spark.streaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function
2017-11-09 16:40:38 217 1
转载 Spark Streaming开发入门——WordCount(Java&Scala)
一、Java方式开发1、开发前准备假定您以搭建好了Spark集群。2、开发环境采用eclipse maven工程,需要添加Spark Streaming依赖。 dependency> groupId>org.apache.sparkgroupId> artifactId>spark-streaming_2.10artifactId> ver
2017-11-09 14:20:29 227 3
转载 详解spark sql用户自定义函数:UDF与UDAF
参考Spark官网王家林DT大数据梦工厂场景UDAF = USER DEFINED AGGREGATION FUNCTION1上一篇文章已经介绍了spark sql的窗口函数,并知道spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数hold不住,所以spark sql提供了可扩展的内置函数接口:哥们,你的业务太
2017-11-09 09:29:47 602
原创 Spark简单函数 JAVA/SCALA
一,用JAVA编写的一些Spark函数 package com.css.ideaSpark; import org.apache.spark.Accumulator; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.jav
2017-11-01 16:03:46 267 2
转载 Spark的高级排序(二次排序)
为了多维的排序,需要考虑多个条件,这要求我们自定义key1 233 223 311 122 114 45123456二、使用java实现2.1、自定义key使用scala.math.Ordered接口,实现Serializable接口package com.chb.sparkDemo.secondarySort;import java.io.Serializabl
2017-11-01 14:42:23 207
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人