BigData- SparkStreaming
spark
BF-LoneSilverWind
睿智 灵动 从容 淡定
展开
-
Spark优化
1. 资源调优 1) 在部署spark集群中指定资源分配的默认参数 在spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCES 每台机器启动worker数 2) 在提交Application的时候给当前的Application分配更多的资源 提 交命令选项:(在提交Applica...原创 2020-01-10 18:56:48 · 179 阅读 · 0 评论 -
Sparkstream2.3 + Kafka0.11整合
kafka 0.11版本改变(0.10及以上) kafka 0.8.2版本消费者offset存储在zookeeper中,对于zookeeper而言每次写操作代价是很昂贵的(过半机制)不像kafka的高吞吐,而且zookeeper集群是不能扩展写能力。kafka 0.11版本默认使用新的消费者api ,消费者offset会更新到一个kafka自带的topic【__consumer_offsets】中...原创 2020-01-04 16:06:45 · 386 阅读 · 0 评论 -
SparkStreaming算子 作用整理
1. foreachRDD 一种转换算子 foreachRDD作用于DStream中每一个时间间隔的RDD,foreachPartition作用于每一个时间间隔的RDD中的每一个partition,foreach作用于每一个时间间隔的RDD中的每一个元素。 官网解析: 最常用的输出操作 需要一个函数作为参数,函数作用于DStream中的每一个RDD 函数将RDD中的数据输出到外部系统,如文件、...原创 2020-01-04 15:46:09 · 320 阅读 · 0 评论 -
Spark Streaming 01
1. SparkStreaming简介 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的准实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统...原创 2019-12-31 20:07:04 · 116 阅读 · 0 评论 -
Spark Streaming 02 SparkStreaming算子操作
SparkStreaming算子操作 1. foreachRDD output operation算子,必须对抽取出来的RDD执行action类算子,代码才能执行。 2. transform transformation类算子 可以通过transform算子,对Dstream做RDD到RDD的任意操作。 3. updateStateByKey transformation算子 updat...原创 2019-12-31 20:12:47 · 158 阅读 · 0 评论 -
SparkStreaming03 Driver HA 配置
Driver HA 这里指的是 Standalone或者Mesos框架的 cluster模式的配置 SparkStreaming是7*24小时(指不间断)运行,Driver只是一个简单的进程,有可能挂掉,所以实现Driver的HA就有必要 如果使用的是Client模式就无法实现Driver HA ,我们这里针对的是cluster模式。 Yarn平台的cluster模式提交任务,AM(A...原创 2020-01-01 19:09:30 · 207 阅读 · 0 评论 -
SparkStreaming2.2 + Kafka0.8
SparkStreaming2.2(包含以前版本)+Kafka0.8 1. receiver模式 (不管需不需要都会传输数据) receiver模式原理图 receiver模式流程: 在SparkStreaming程序运行起来后,Executor中会有receiver task接收kafka推送过来的数据。数据会被持久化,默认级别为MEMORY_AND_DISK_SER_2,这个级别也可以...原创 2020-01-01 21:02:23 · 199 阅读 · 0 评论