自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 Kafka(自带的zookeeper)集群搭建详细步骤

Kafka集群搭建1、 Kafka的安装需要java环境,cent os 7自带java1.6版本,可以不用重新安装,直接使用自带的jdk 即可;如果觉得jdk版本太旧,也可以自己重新安装;2、 准备好kafka安装包,官网下载地址: http://kafka.apache.org/downloads.html3、 下载好kafka安装包后,将其解压到/usr/local目录下,删

2017-11-22 17:36:00 9187 1

转载 【Spark Java API】Action(3)—foreach、foreachPartition、lookup

foreach官方文档描述:Applies a function f to all elements of this RDD.12函数原型:def foreach(f: VoidFunction[T])1foreach用于遍历RDD,将函数f应用于每一个元素。源码分析:def foreach(f: T => Unit): Unit = withScope {

2017-11-13 22:00:16 461

转载 spark streaming - kafka updateStateByKey 统计用户消费金额

场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现)数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}

2017-11-13 21:57:54 590 1

转载 Spark-Streaming之window滑动窗口应用

Spark-Streaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。网官图中所示,就是对每三秒钟的数据执行一次滑动窗口计算,这3秒内的3个RDD会被聚合起来进行处理,然后过了两

2017-11-13 21:55:40 214

转载 Spark中的checkpoint作用与用法

checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完全不会丢失,存储的这个内存出问

2017-11-13 21:53:47 312

转载 spark JavaDirectKafkaWordCount 例子分析

spark  JavaDirectKafkaWordCount 例子分析:1、KafkaUtils.createDirectStream( jssc, String.class, String.class, StringDecoder.class, StringDecoder.class, kafkaPar

2017-11-13 16:52:24 410

转载 spark streaming 接收 kafka 数据java代码WordCount示例

spark streaming 接收 kafka 数据java代码WordCount示例1. 首先启动zookeeper2. 启动kafka3. 核心代码生产者生产消息的java代码,生成要统计的单词package streaming;import java.util.Properties; import kafka.javaapi.pro

2017-11-13 10:39:40 867

转载 Spark Streaming---HDFSwordcount

package com.spark.streaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function

2017-11-09 16:40:38 217 1

转载 Spark Streaming开发入门——WordCount(Java&Scala)

一、Java方式开发1、开发前准备假定您以搭建好了Spark集群。2、开发环境采用eclipse maven工程,需要添加Spark Streaming依赖。 dependency> groupId>org.apache.sparkgroupId> artifactId>spark-streaming_2.10artifactId> ver

2017-11-09 14:20:29 227 3

转载 详解spark sql用户自定义函数:UDF与UDAF

参考Spark官网王家林DT大数据梦工厂场景UDAF = USER DEFINED AGGREGATION FUNCTION1上一篇文章已经介绍了spark sql的窗口函数,并知道spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数hold不住,所以spark sql提供了可扩展的内置函数接口:哥们,你的业务太

2017-11-09 09:29:47 602

原创 Spark简单函数 JAVA/SCALA

一,用JAVA编写的一些Spark函数 package com.css.ideaSpark; import org.apache.spark.Accumulator; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.jav

2017-11-01 16:03:46 267 2

转载 Spark的高级排序(二次排序)

为了多维的排序,需要考虑多个条件,这要求我们自定义key1 233 223 311 122 114 45123456二、使用java实现2.1、自定义key使用scala.math.Ordered接口,实现Serializable接口package com.chb.sparkDemo.secondarySort;import java.io.Serializabl

2017-11-01 14:42:23 207

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除