SparkStreaming
大米饭精灵
无敌的我。。咳咳
展开
-
Spark Streaming-01初识
基于Spark core API 的一个扩展,处理实时数据流Spark Core 模型是RDD SparkContextSpark SQL 模型是DF/DS SparkSessionSpark Streaming 模型是DStream StreamingContext处理实时数据流过程Spark Streaminginput(Flume、Kafka、Socket) --> compute(...原创 2018-05-06 16:12:30 · 158 阅读 · 0 评论 -
Spark Streaming-02
直接上代码,注意textFileStream数据源没有 receiverimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object TextFileStreamWordCountApp { def main(args: Array[String])...原创 2018-05-06 20:13:09 · 93 阅读 · 0 评论 -
Spark-streaming kafka数据接收两种方式对比
1.1 Receiver-based Approach这种方式利用接收器(Receiver)来接收kafka中的数据,其最基本是使用Kafka高阶用户API接口。对于所有的接收器,从kafka接收来的数据会存储在spark的executor中,之后spark streaming提交的job会处理这些数据。Receiver-based的Kafka读取方式是基于Kafka高阶(high-level) ...转载 2018-06-13 13:36:31 · 1379 阅读 · 0 评论 -
关于SparkStreaming的checkpoint的弊端
框架版本spark2.1.0kafka0.9.0.0当使用sparkstreaming处理流式数据的时候,它的数据源搭档大部分都是Kafka,尤其是在互联网公司颇为常见。 当他们集成的时候我们需要重点考虑就是如果程序发生故障,或者升级重启,或者集群宕机,它究竟能否做到数据不丢不重呢?也就是通常我们所说的高可靠和稳定性,通常框架里面都带有不同层次的消息保证机制,一般来说有三种就是:at most o...转载 2018-06-13 23:27:03 · 237 阅读 · 0 评论 -
Spark Streaming的还原药水——Checkpoint
一个 Streaming Application 往往需要7*24不间断的跑,所以需要有抵御意外的能力(比如机器或者系统挂掉,JVM crash等)。为了让这成为可能,Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application 从失败中恢复。Spark Streaming 会 checkpoint 两种类型的数据。Metadata...转载 2018-06-13 23:28:26 · 159 阅读 · 0 评论 -
SparkStreaming - 写入到mysql ForeachRdd
import java.sql.DriverManagerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object ForeachRDDApp { def main(args: Array[String]) { val sparkC...原创 2018-06-14 11:08:32 · 448 阅读 · 0 评论 -
SparkStreaming 日志双写 直连flume
生产环境中,开发会写入一些测试数据,或者黑名单过滤,或者只抓取黑名单transform 日志双写 ==> log a:正常的 a:test的 黑名单过滤 log black=======================================================================================================...原创 2018-06-14 11:53:34 · 284 阅读 · 0 评论