Spark
JayLaiSCUT
从事大数据平台和后端开发工作,热爱IT新技术,热爱开源
展开
-
Apahce Avro入门及其在Spark中的应用
1 Avro简介在互联网发展早期,很多项目都是运行在单体架构上,使用Java原生序列化机制能满足大部分场景需求。后面随着业务和访问量的增大,项目架构慢慢迁移到微服务架构。每个微服务可能采用不同的开发语言,而且部分服务对通信性能要求比较高,这时候Java原生的序列化就不能满足要求。因为Java原生序列化机制存在1)不支持跨语言2)序列化后的体积比较大等问题,所以采第三方的序列化协议就显得很有必要。...原创 2020-03-29 16:35:09 · 5681 阅读 · 0 评论 -
Spark Streaming消费Kafka并手动使用Redis管理Kafka Offset
1 Spark Streaming读取Kafka的两种模式Spark Streaming消费Kafka的数据有两种模式:Receiver和Direct模式,学习时候重点关注下Direct即可,因为在最新读取模方式中已经不支持Receiver。1.1 Receiver模式在Spark 1.3之前,Spark Streaming消费Kafka中的数据采用基于Kafka高级消费API实现的Rece...原创 2020-04-27 23:19:33 · 6928 阅读 · 0 评论 -
Spark源码分析系列—编译源码
1 Spark源码的下载作为一名大数据开发工程师,研读源码是我们日常开发学习中必不可少的环节,而万里长征的第一步就是编译源码。开源Spark主要有3大发行版Apache,CDH和HDP,本文以Apache Spark 2.4.5为例展开。1) 访问Apache Spark官网http://spark.apache.org/,点击Download2)选择版本和文件类型特别注意最后一行声明...原创 2020-04-13 20:04:58 · 5964 阅读 · 0 评论