Spark
程序员小陶
公众号:大数据学习指南
展开
-
Spark SQL 简介
是什么?Spark 1.0 推出 Spark SQL,是 Spark 生态系统中最活跃的组件之一。能够利用 Spark 进行结构化的存储和操作。结构化数据可以来自外部源:Hive/Json/parquet,1.2开始支持 JDBC等,也可以对已有 RDD 增加 Schema 的方式获得。当前 Spark SQL 使用 Catalyst 优化器对 SQL 语句进行优化,从而得到更好的执行方案。...原创 2020-01-12 02:12:31 · 284 阅读 · 0 评论 -
一文搞清楚 Spark RDD到底是什么?
阅读文本大概需要 5 分钟。以下内容,部分参考网络资料,也有自己的理解, 图片 99% 为自己制作。如有错误,欢迎留言指出,一起交流。1简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它产生于 UC Berkeley AMP Lab,继承了 MapReduce 的优点,但是不同于 MapReduce 的是,Spark 可以将结果保存在内存中,一直迭代计算下...原创 2019-04-21 00:50:06 · 400 阅读 · 0 评论 -
一文搞清楚 Spark 数据本地化级别
Spark 数据本地化级别文章首发于:大数据进击之路RDD 源码大家可以看到源码中的第五条注释说明,翻译过来的大概意思是提供一系列的最佳计算位置。我之前一直不太清楚 spark 是如何内部实现的,今天就带领大家来看一看 spark 的本地数据化级别在任务执行中的演变过程。1 数据的本地化级别有哪些?Spark 中任务的处理需要考虑数据的本地性,以 spark 1.6 为例,目前支持一下...原创 2019-04-21 00:51:18 · 1223 阅读 · 0 评论 -
一文搞清楚 Spark shuffle 调优
Spark shuffle 调优Spark 基于内存进行计算,擅长迭代计算,流式处理,但也会发生shuffle 过程。shuffle 的优化,以及避免产生 shuffle 会给程序提高更好的性能。因为 shuffle 的性能优劣直接决定了整个计算引擎的性能和吞吐量。下图是官方的说明,1.2 版本之后默认是使用 sort shuffle 。这样会更加高效得利用内存。之前版本默认是 hash s...原创 2019-04-21 00:52:36 · 441 阅读 · 0 评论 -
Spark Streaming 遇到 kafka
Spark Streaming 遇到 kafka站酷 | 插画搭建流程略,主要讲一下如何更好的结合使用,看图说话。Kafka 结合 Spark Streaming 实现在线的准实时流分析,除了保证数据源和数据接收的可靠性,还要保证元数据的 checkpoint 。以上的方案,不能防止数据的丢失。Executor 收到数据后开始执行任务了。但是这时候 Driver 挂掉了,相应的 Exe...原创 2019-04-21 00:54:04 · 234 阅读 · 1 评论