spark
文章平均质量分 78
好笨的菜鸟
这个作者很懒,什么都没留下…
展开
-
spark-2.4.2-bin-2.6.0-cdh5.7.0源码编译
准备工作 jdk-8u211-linux-x64.tar.gz spark-2.4.2.tgz apache-maven-3.6.1-bin.tar.gz注:根据官方文档显示spark-2.4.2编译需要Java8、Maven-3.5.4及以上版本配置环境 解压jdk,并配置Java环境变量 解压Maven,配置Maven环境变量 ...原创 2019-05-01 19:55:28 · 531 阅读 · 0 评论 -
Spark Streaming反压机制初探
概述Spark Streaming中的反压机制是Spark 1.5.0推出的新特性,可以根据处理效率动态调整摄入速率。当批处理时间(Batch Processing Time)大于批次间隔(Batch Interval,即 BatchDuration)时,说明处理数据的速度小于数据摄入的速度,持续时间过长或源头数据暴增,容易造成数据在内存中堆积,最终导致Executor OOM或任务奔溃。...原创 2019-07-14 01:26:42 · 339 阅读 · 0 评论 -
spark监控配置
目录简述通过Spark HistoryServer UI进行监控配置spark-defaults.conf配置spark-env.sh启动 Spark HistoryServer停止Spark HistoryServer通过REST API进行监控简述默认情况下,每个SparkContext都会在端口4040上启动Web UI,以显示有关应用程序的有用信息。这包括:调度程序阶段和任务的列表...原创 2019-06-30 00:52:17 · 507 阅读 · 0 评论 -
Spark Streaming + Kafka的offset管理
目录简述消费语义offset的三种管理方式offset管理demo自带offset管理将offset存储在MySQL中简述Kafka+Spark Streaming主要用于实时流处理。到目前为止,在大数据领域中是一种非常常见的架构。Kafka在其中主要起着一个缓冲的作用,所有的实时数据都会经过kafka。所以对kafka offset的管理是其中至关重要的一环。一但管理不善,就会到导致数据丢失...原创 2019-07-17 01:39:15 · 1282 阅读 · 0 评论