CODE男孩的博客

你只是看起来很努力,,,,,

排序:
默认
按更新时间
按访问量

【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序

这篇博客我们介绍基于StructuredStreaming进行实时流算子开发,并将结果输出到kafka中。       StructuredStreaming使用的数据类型是DataFrame和Dataset。      从Spark 2.0开始,DataFrame和Dataset可以表示静态...

2018-09-30 14:33:24

阅读数:54

评论数:0

【秒懂StructuredStreaming】StructuredStreaming是何方神圣

目录 一、为何要有StructuredStreaming 二、StructuredStreaming的特性 1、结构化流式处理 2、基于Event-Time聚合&延迟数据处理 3、容错性 Structured Streaming是Spark新提出的一种实时流的框...

2018-09-30 14:31:38

阅读数:27

评论数:0

高性能Spark作业基础:你必须知道的调优原则及建议

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。 然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果...

2018-08-31 11:58:08

阅读数:46

评论数:0

impala与hive的比较以及impala的有缺点

 最近读的几篇关于impala的文章,这篇良心不错:https://www.biaodianfu.com/impala.html(本文截取部分内容)         Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB...

2018-08-10 10:14:35

阅读数:299

评论数:1

使用spring-boot-admin对spring-boot服务进行监控

原文:http://www.cnblogs.com/ityouknow/p/8440455.html   Spring Boot Actuator提供了对单个Spring Boot的监控,信息包含:应用状态、内存、线程、堆栈等等,比较全面的监控了Spring Boot应用的整个生命周期。 但...

2018-07-20 10:41:14

阅读数:153

评论数:1

spark streaming 广播变量的测试

最近写的一个流式的程序需要从redis 中获取变量信息,并广播,其中redis里面的信息是变动的,要求广播变量也要跟着改变,下面是测试代码:val dStream = KafkaUtils.createDirectStream[String, String]( ssc, Pre...

2018-07-16 11:07:52

阅读数:96

评论数:1

Spark运行架构(Good)

转自与https://note.youdao.com/share/?id=7fc41e362e86a863a84e787573433a76&type=note#/1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Ha...

2018-07-06 14:23:04

阅读数:163

评论数:0

Spark2.3.0 结构化流 进行streaming+kafka的可操作算子流

工作上正在进行Streaming算子的研究学习,需要做到在流的基础上,通过kafka接收数据到 中间若干的计算算子,再到最后的输出。开始使用传统的streaming+kafka,但由于无法返回后续使用的dataset,只能放弃, 后来大牛提出永spark的结构化流处理,于是经过参考文档资料编写了一...

2018-07-03 11:27:07

阅读数:134

评论数:0

spring-sparkstreaming-kafka10集成实现以及可能出现的部分问题(DirectKafkaInputDStream 无法序列化)

本文所研究的spark-streaming代码版本为2.3.0-SNAPSHOT spark-streaming为了匹配0.10以后版本的kafka客户端变化推出了一个目前还是Experimental状态的spark-streaming-kafka-0-10客户端,由于老的0.8版本无法支持ker...

2018-07-02 10:43:24

阅读数:260

评论数:0

java8下spark-streaming结合kafka编程(spark 2.3 kafka 0.10)

前面有说道spark-streaming的简单demo,也有说到kafka成功跑通的例子,这里就结合二者,也是常用的使用之一。1.相关组件版本 首先确认版本,因为跟之前的版本有些不一样,所以才有必要记录下,另外仍然没有使用scala,使用java8,spark 2.0.0,kafka 0.10。2...

2018-06-28 14:23:11

阅读数:458

评论数:0

java8实现spark streaming的wordcount

概念这里就不说了,从案例开始,惯例,hellowrod,哦不,wordcount。 要计算从一个监听 TCP socket 的数据服务器接收到的文本数据(text data)中的字数。 主体代码部分跟spark相差不大,毕竟DStream是RDD产生的模板(或者说类)。1.导入了 Spark St...

2018-06-28 14:17:25

阅读数:89

评论数:0

Streaming学习

Streaming官方文档

2018-06-28 14:16:53

阅读数:43

评论数:0

kafka初探 版本0.10 java编程

之前对kafka的了解其实仅限于知道它是一个分布式消息系统,这次详细了解了下,知道了一些关键概念(topic主题、broker服务、producers消息发布者、consumer消息订阅者消费者),具体网上一大堆,这里不赘述,直接开始代码。1.引入包 <dependen...

2018-06-28 14:13:27

阅读数:101

评论数:0

Influxdb原理详解

本文属于《InfluxDB系列教程》文章系列,该系列共包括以下 18 部分:InfluxDB系列学习教程目录InfluxDB学习之InfluxDB的安装和简介InfluxDB学习之InfluxDB的基本概念InfluxDB学习之InfluxDB的基本操作InfluxDB学习之InfluxDB的HT...

2018-06-27 08:57:52

阅读数:191

评论数:0

基于scala的OpenTSDB的查询(参考JAVA版的OpenTSDB API)

OpenTSDB提供三种方式的读写操作:telnet、http、post,但官方并没提供JAVA版的API。      多亏有开源贡献者“shifeng258”,他用java编写了 opentsdb-client ,才使得我们能对openTSDB的读写操作进行封装,下面是JAVA版参考资料http...

2018-05-18 17:00:31

阅读数:249

评论数:0

OpenTSDB 查询示例

构造数据开启本地安装的opentsdb服务,首先构造一段数据,一共8个点,插入OpenTSDB,代码如下:# coding:utf-8 import requests payload = { "metric": "sys.cpu.d...

2018-05-16 17:44:01

阅读数:464

评论数:0

OpenTSDB介绍——基于Hbase的分布式的,可伸缩的时间序列数据库,而Hbase本质是列存储

OpenTSDB介绍1.1、OpenTSDB是什么?主要用途是什么?官方文档这样描述:OpenTSDB is a distributed, scalable Time Series Database (TSDB) written on top of HBase;翻译过来就是,基于Hbase的分布式...

2018-05-16 17:15:27

阅读数:240

评论数:0

针对setBatch() 与filter 不兼容 对Hbase Scan 主要流程分析

Hbase Scan 流程分析在使用Hbase查询时,发现了这样一段public void setBatch(int batch) { if(this.hasFilter() && this.filter.hasFilterRow()) { ...

2018-05-14 14:23:20

阅读数:216

评论数:0

Hbase - 比较器、过滤器、过滤器的操作符

过滤器的操作符LESS < LESS_OR_EQUAL <= EQUAL = NOT_EQUAL <> GREATER_OR_EQUAL >= GREATER > ...

2018-05-11 13:19:11

阅读数:108

评论数:0

HBase Scan类用法

public static void main(String[] args) throws IOException { //Scan类常用方法说明 //指定需要的family或column ,如果没有调用任何addFamily或Column,会返回所有的co...

2018-05-11 13:04:27

阅读数:80

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭