- 博客(6)
- 收藏
- 关注
转载 Apache Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff...
2018-04-28 11:39:18
474
转载 十大经典排序算法
十大经典排序算法0、排序算法说明0.1 排序的定义对一序列对象根据某个关键字进行排序。0.2 术语说明稳定:如果a原本在b前面,而a=b,排序之后a仍然在b的前面;不稳定:如果a原本在b的前面,而a=b,排序之后a可能会出现在b的后面;内排序:所有排序操作都在内存中完成;外排序:由于数据太大,因此把数据放在磁盘中,而排序通过磁盘和内存的数据传输才能进行;时间复杂度: 一个算法执行所耗费的时间。空间...
2018-03-29 17:12:21
113
原创 java.lang.UnsupportedOperationException: org.apache.parquet.column.values.dictionary.PlainValuesDict
Error: org.apache.spark.SparkException: Job aborted due to stage failure: Task 3 in stage 9.0 failed 4 times, most recent failure: Lost task 3.3 in stage 9.0 (TID 56, www.byxf.master.com, executor 8):...
2018-03-10 16:11:50
8930
转载 Cloudera Engineering Blog 翻译:Offset Management For Apache Kafka With Apache Spark Streaming
Spark Streaming 应用从Kafka中获取信息是一种常见的场景。从Kafka中读取持续不断的数据将有很多优势,例如性能好、速度快。然而,用户必须管理Kafka Offsets保证Spark Streaming应用挂掉之后仍然能够正确地读取数据。在这一篇文章,我们将来讨论如何管理offset。目录Offset管理概述将Offsests存储在外部系统Spark St
2018-02-06 15:08:55
354
转载 Kafka消费组(consumer group)
Kafka消费组(consumer group)一直以来都想写一点关于kafka consumer的东西,特别是关于新版consumer的中文资料很少。最近Kafka社区邮件组已经在讨论是否应该正式使用新版本consumer替换老版本,笔者也觉得时机成熟了,于是写下这篇文章讨论并总结一下新版本consumer的些许设计理念,希望能把consumer这点事说清楚,从而对广大使
2018-02-06 14:27:29
287
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人