Spark博文
文章平均质量分 55
-无妄-
本人主要记录的是学习笔记和其他参考,持续学习中。。。
展开
-
SparkRDMA:使用RDMA技术提升Spark的Shuffle性能
文章目录Spark Shuffle 基础RDMA 技术安装使用关于配置 libdisni.soSpark Shuffle 基础在 MapReduce 框架中,Shuffle 是连接 Map 和 Reduce 之间的桥梁,Reduce 要读取到 Map 的输出必须要经过 Shuffle 这个环节;而 Reduce 和 Map 过程通常不在一台节点,这意味着 Shuffle 阶段通常需要跨网络以及...转载 2018-11-14 09:22:46 · 1560 阅读 · 0 评论 -
Apache Spark 2.4 发布重要功能详细介绍
文章目录Barrier Execution Mode内置高阶函数内置 Avro 数据源支持 Scala 2.12Pandas UDF 提升Image Data SourceKubernetes 整合增强灵活的 Streaming Sink美国时间 2018年11月08日 正式发布了。一如既往,为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.4 带来了许多新功能,如下:添...转载 2018-11-13 10:58:42 · 441 阅读 · 0 评论 -
Adaptive Execution如何让Spark SQL更高效更好用?
文章目录背景动态设置 Shuffle PartitionSpark Shuffle 原理原有 Shuffle 的问题自动设置 Shuffle Partition 原理使用与优化方法动态调整执行计划固定执行计划的不足SortMergeJoin 原理BroadcastJoin 原理动态调整执行计划原理使用与优化方法自动处理数据倾斜解决数据倾斜典型方案自动解决数据倾斜使用与优化方法本文转发自技术世界,...转载 2018-11-07 15:05:51 · 3630 阅读 · 0 评论 -
IDEA搭建spark-scala的sbt编辑环境实现WorldCount练习
1:打开IDEA先安装scala 插件 ---》File--Settings--Plugins--搜索scala 安装后关闭IDEA重启后如下图2:新建Scala项目 File--New--Project--选择Scala--SBT3:注意版本号的选择--点击finish就构建好了基本scala结构在这里插一句话如果要是和Spark联合使用那么版本号很重要!!!可以查阅sp...原创 2017-11-16 21:52:38 · 557 阅读 · 0 评论 -
Spark Join处理流程分析
为了更好的分析Spark Join处理流程,我们选择具有Shuffle操作的示例来进行说明,这比没有Shuffle操作的处理流程要复杂一些。本文主要通过实现一个Join操作的Spark程序,提交运行该程序,并通过Spark UI上的各种运行信息来讨论Spark Join处理流程。Spark Join示例程序我们先给出一个简单的Spark Application程序代码,这里处理的数据使用了Mo...转载 2018-12-12 10:10:27 · 1014 阅读 · 0 评论 -
Apache Spark 2.4 内置的 Avro 数据源实战
文章目录加载和保存函数from_avro() 和 to_avro() 的使用在代码里面指定 Avro 模式通过 Schema Registry 服务提供 Avro 模式通过文件设置 Avro 模式与 Databricks spark-avro的兼容性性能测试结论Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统,尤其...转载 2018-12-12 10:19:03 · 602 阅读 · 0 评论 -
Structured Streaming VS Flink
flink是标准的实时处理引擎,而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的,不过现在Spark Streaming已经非常稳定基本都没有更新了,然后重点移到spark sql和structured Streaming了。Flink作为一个很好用的实时处理框架,也支持批处理,不仅提供了API的形式,也可以写sql文本。这篇文章...转载 2019-01-14 09:22:29 · 679 阅读 · 0 评论