![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 95
guohecang
数据为王时代,让大数据释放大价值
展开
-
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.转载 2016-05-01 17:20:23 · 612 阅读 · 0 评论 -
Spark配置参数详解
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置:可以通过log4j.properties配置Spark转载 2016-08-01 20:26:55 · 91129 阅读 · 0 评论 -
Spark读取配置源码剖析
我们知道,有一些配置可以在多个地方配置。以配置executor的memory为例,有以下三种方式:1. spark-submit的--executor-memory选项2. spark-defaults.conf的spark.executor.memory配置3. spark-env.sh的SPARK_EXECUTOR_MEMORY配置同一个配置可以在多处设置,这显然会造成迷惑,不知道spar转载 2016-08-01 18:34:49 · 1296 阅读 · 0 评论 -
Spark RDD使用详解5--Action算子
本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。 根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作,不返回RDD和Array,而是返回Uint。 图中,foreach算子通过用户自定义函数对每个转载 2016-06-23 16:51:48 · 1539 阅读 · 0 评论 -
Spark on Yarn遇到的几个问题及解决思路
Spark on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。转载 2016-10-09 17:05:15 · 10799 阅读 · 0 评论 -
spark 应用程序性能优化|12 个优化方法
本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,都不翻译了。若想深入了解,最好阅读参考文章和官方文档。转载 2016-10-09 17:06:16 · 6925 阅读 · 0 评论 -
新的可视化帮助更好地了解Spark Streaming应用程序
日前,在Spark1.4.0中新推出了可视化功能,用以更好的了解Spark应用程序的行为。Spark贡献者Tathagata Das、Shixiong Zhu和Andrew Or又撰文重点介绍为理解Spark Streaming应用程序而引入的新可视化功能。转载 2016-10-09 17:17:34 · 1047 阅读 · 0 评论 -
通过可视化来了解你的Spark应用程序
在过去,Spark UI一直是用户应用程序调试的帮手。而在最新的Spark 1.4版本中,一个新的因素被注入到Spark UI——数据可视化。转载 2016-10-09 17:16:15 · 1640 阅读 · 0 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更转载 2016-05-03 16:12:28 · 2950 阅读 · 0 评论 -
Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证转载 2016-05-14 18:11:34 · 777 阅读 · 0 评论 -
Spark性能相关参数配置详解-压缩与序列化篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config.readthedocs.org/,主要是便于更新内容转载 2016-05-18 13:11:12 · 654 阅读 · 0 评论 -
Spark RDD使用详解4--Key-Value型Transformation算子
Transformation处理的数据为Key-Value形式的算子大致可以分为:输入分区与输出分区一对一、聚集、连接操作。输入分区与输出分区一对一mapValuesmapValues:针对(Key,Value)型数据中的Value进行Map操作,而不对Key进行处理。 方框代表RDD分区。a=>a+2代表只对( V1, 1)数据中的1进行加2操作,返回结果为3。源码:转载 2016-06-23 16:51:02 · 3324 阅读 · 0 评论 -
Spark RDD使用详解3--Value型Transformation算子
处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型:1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)输入分区与输出分区多对多型 4)输出分区为输入分区子集型 5)还有一种特殊的输入与输出分区一对一的算子类型:Cache型。 Cache算子对RDD分区进行缓存输入分区与输出分区转载 2016-06-23 16:49:09 · 2153 阅读 · 0 评论 -
Hadoop和Spark分别实现二次排序
将下列数据中每个分区中的第一列顺序排列,第二列倒序排列。Text 12345678910111213141516171819202122232425262728293031323334353637转载 2016-05-03 21:33:43 · 1539 阅读 · 1 评论 -
Spark在美团的实践
前言美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主,底层计算引擎转载 2016-05-05 16:56:05 · 2212 阅读 · 0 评论 -
Spark性能相关参数配置详解-任务调度篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config.readthedocs.org/,主要是便于更新内容转载 2016-05-18 13:14:39 · 618 阅读 · 0 评论 -
Spark性能相关参数配置详解-Storage篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config.readthedocs.org/,主要是便于更新内容Stor转载 2016-05-18 13:07:17 · 698 阅读 · 0 评论 -
Spark性能相关参数配置详解-shuffle篇
Shuffle 相关Shuffle操作大概是对Spark性能影响最大的步骤之一(因为可能涉及到排序,磁盘IO,网络IO等众多CPU或IO密集的操作),这也是为什么在Spark 1.1的代码中对整个Shuffle框架代码进行了重构,将Shuffle相关读写操作抽象封装到Pluggable的Shuffle Manager中,便于试验和实现不同的Shuffle功能模块。例如为了解决Hash Base转载 2016-05-18 12:08:39 · 765 阅读 · 0 评论 -
Spark Streaming容错的改进和零数据丢失
作者:Tathagata Das 译者:彭根禄本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。以下为原文:实时流处理系统必转载 2016-04-23 21:29:35 · 508 阅读 · 0 评论 -
Spark RDD使用详解1--RDD原理
在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合,它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用。分布在多台机器上,计算过程中内存不够时它会和磁盘进行数据交换,实质是一种更为通用的迭代并行计算框架,用户可以显示的控制计算的中间原创 2016-06-22 19:34:07 · 26864 阅读 · 1 评论 -
Spark Streaming实践和优化
在流式计算领域,Spark Streaming和Storm时下应用最广泛的两个计算引擎。其中,Spark Streaming是Spark生态系统中的重要组成部分,在实现上复用Spark计算引擎。如图1所示,Spark Streaming支持的数据源有很多,如Kafka、Flume、TCP等。Spark Streaming的内部数据表示形式为DStream(Discretized Stream,离散转载 2016-06-04 10:33:00 · 4188 阅读 · 0 评论 -
RDD:基于内存的集群计算容错抽象
本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见;二是交互式数据挖掘工具。这两种情况下,将数据保存在内存中能够极大地提高性能。为了有效地实现容错,RDD提供了一种高度受限的共享内存,即RDD是只读的,并且只能通过其他RDD上的批量操作来创建。尽管如此转载 2016-06-19 18:47:10 · 1325 阅读 · 0 评论 -
Spark的RDD原理以及2.0特性的介绍
Spark 是 Apache 顶级项目里面最火的大数据处理的计算引擎,它目前是负责大数据计算的工作。包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。全世界有许多公司和组织使用或给社区贡献代码,社区的活跃度见 www.github.com/apache/spark。转载 2016-06-15 16:47:42 · 1460 阅读 · 0 评论 -
Spark RDD使用详解2--RDD创建方式
关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD转载 2016-06-23 16:47:36 · 15590 阅读 · 0 评论 -
Spark加载外部配置文件
Spark中addFile加载配置文件 我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上,然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。注意,如果是spark程序通过yarn集群上加载配置文件,path必须是集群hdfs的绝对路径,如:viewfs://58-cluster//home/hdp_lbg_supin/resultdata/zhaopin/recommend/config/redis.p原创 2016-08-02 22:56:21 · 31913 阅读 · 0 评论