spark
anningzhu
这个作者很懒,什么都没留下…
展开
-
Spark知识体系完整解读
Spark简介Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上转载 2017-03-01 17:37:22 · 294 阅读 · 0 评论 -
Transformations转换入门经典实例
Spark相比于Mapreduce的一大优势就是提供了很多的方法,可以直接使用;另一个优势就是执行速度快,这要得益于DAG的调度,想要理解这个调度规则,还要理解函数之间的依赖关系。本篇就着重描述下Spark提供的Transformations方法.依赖关系宽依赖和窄以来窄依赖(narrow dependencies)窄依赖是指父RDD仅仅被一个子RDD所使用,子RDD的每个转载 2017-03-07 20:30:59 · 428 阅读 · 0 评论 -
Spark架构简明分析
1. RDD有哪些特性?2. 如何理解Application、Job、Stage、TaskSet以及Task?3. Spark如何实现可插拔式的资源管理模块?4. Spark如何实现RPC通信模块?5. 启动Standalone集群的流程是怎样的?6. Spark集群计算时涉及到哪些核心组件?这些核心组件是如何交互的?7. Spark转载 2017-03-07 20:33:59 · 4148 阅读 · 0 评论 -
spark设计思想
1、spark的特点有哪些?2、spark的基本概念有哪些?3、spark的设计思想是什么?Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。 Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异转载 2017-03-07 20:40:20 · 1738 阅读 · 0 评论 -
Spark on Mesos: 粗粒度与细粒度实现分析
Mesos粗粒度CoarseMesosSchedulerBackend,是mesos的粗粒度scheduler backend实现。简单说一下mesos的Scheduler,提供的回调函数,及spark实现的逻辑:Mesos Scheduler接口触发场景spark实现逻辑void register转载 2017-03-07 20:56:42 · 510 阅读 · 0 评论 -
Spark性能优化
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更转载 2017-03-21 23:34:00 · 199 阅读 · 0 评论 -
spark sql 中出现的问题
1.高并发情况下的内存泄露的具体表现很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现,有大量的activejob在spark ui上一直处于pending状态,且永远不结束,如下图所示SQL上踩过的坑" style="margin:0转载 2017-03-13 12:14:16 · 1933 阅读 · 0 评论 -
Spark-1.3.1与Hive整合实现查询分析
在大数据应用场景下,使用过Hive做查询统计分析的应该知道,计算的延迟性非常大,可能一个非常复杂的统计分析需求,需要运行1个小时以上,但是比之于使用MySQL之类关系数据库做分析,执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句,最终经过Hive查询解析器,翻译成Hadoop平台上的MapReduce程序进行运行,这也是MapReduce计算引擎的特点带来的延迟问题:Map中间结果写转载 2017-03-29 18:44:23 · 390 阅读 · 0 评论 -
spark官方文档
1 概述(Overview)总体来讲,每一个Spark驱动程序应用都由一个驱动程序组成,该驱动程序包含一个由用户编写的main方法,该方法会在集群上并行执行一些列并行计算操作。Spark最重要的一个概念是弹性分布式数据集,简称RDD(resilient distributed dataset )。RDD是一个数据容器,它将分布在集群上各个节点上的数据抽象为一个数据集,并且RDD能够进行一系列的转载 2017-03-23 00:48:53 · 565 阅读 · 0 评论 -
基于Spark的用户行为路径分析
一、研究背景 互联网行业越来越重视自家客户的一些行为偏好了,无论是电商行业还是金融行业,基于用户行为可以做出很多东西,电商行业可以归纳出用户偏好为用户推荐商品,金融行业可以把用户行为作为反欺诈的一个点,本文主要介绍其中一个重要的功能点,基于行为日志统计用户行为路径,为运营人员提供更好的运营决策。可以实现和成熟产品如adobe analysis类似的用户行为路径分析。最终效果如图。使用的是转载 2017-06-15 15:00:18 · 3790 阅读 · 0 评论 -
spark入门详解
1. Spark中的基本概念在Spark中,有下面的基本概念。Application:基于Spark的用户程序,包含了一个driver program和集群中多个executorDriver Program:运行Application的main()函数并创建SparkContext。通常SparkContext代表driver programExecutor:为某Applica转载 2017-03-07 20:24:36 · 7486 阅读 · 0 评论 -
Spark Core源码分析之RDD基础
RDDRDD初始参数:上下文和一组依赖abstract class RDD[T: ClassTag]( @transient private var sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) extends Serializable转载 2017-03-07 20:18:13 · 427 阅读 · 0 评论 -
Spark性能优化指南
数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余转载 2017-03-09 14:21:30 · 237 阅读 · 0 评论 -
spark sql
Spark SQL 的前身是Shark,它发布时Hive 可以说是SQL on Hadoop 的唯一选择(Hive 负责将SQL 编译成可扩展的MapReduce 作业),鉴于Hive 的性能以及与Spark 的兼容,Shark 由此而生。Shark 即Hive on Spark,本质上是通过Hive 的HQL 进行解析,把HQL 翻译成Spark 上对应的RDD 操作,然后通过Hive转载 2017-03-01 17:53:25 · 701 阅读 · 0 评论 -
Spark Streaming小结
概述Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等转载 2017-03-05 16:57:56 · 360 阅读 · 0 评论 -
Spark Streaming实践和优化
一、Spark Streaming概述Spark是美国加州伯克利大学AMP实验室推出的新一代分布式计算框架,其核心概念是RDD,一个只读的、有容错机制的分布式数据集,RDD可以全部缓存在内存中,并在多次计算中重复使用。相比于MapReduce编程模型,Spark具有以下几个优点:更大的灵活性和更高的抽象层次,使得用户用更少的代码即可实现同样的功能;适合迭代算法,在MapRe转载 2017-03-05 17:01:48 · 753 阅读 · 0 评论 -
Spark Streaming基础原理
What is Spark Streaming作为UC Berkeley云计算software stack的一部分,Spark Streaming是建立在Spark上的应用框架,利用Spark的底层框架作为其执行基础,并在其上构建了DStream的行为抽象。利用DStream所提供的api,用户可以在数据流上实时进行count,join,aggregate等操作。A S转载 2017-03-05 17:06:39 · 609 阅读 · 0 评论 -
使用Spark Streaming + Elasticsearch搭建高可用、可扩展的App异常监控平台
如果在使用App时遇到闪退,你可能会选择卸载App、到应用商店怒斥开发者等方式来表达不满。但开发者也同样感到头疼,因为崩溃可能意味着用户流失、营收下滑。为了降低崩溃率,进而提升App质量,App开发团队需要实时地监控App异常。一旦发现严重问题,及时进行热修复,从而把损失降到最低。App异常监控平台,就是将这个方法服务化。低成本小型创业团队一般会选择第三方平台提供的异常监控服务。但翻译 2017-03-05 17:25:42 · 367 阅读 · 0 评论 -
Spark大数据处理之从WordCount看Spark大数据处理的核心机制
大数据处理肯定是分布式的了,那就面临着几个核心问题:可扩展性,负载均衡,容错处理。Spark是如何处理这些问题的呢?接着上一篇的“动手写WordCount”,今天要做的就是透过这个大数据界的HelloWorld来看看Spark隐藏了哪些魔法。请各位看官,带着分布式的问题往下看。分布式架构大数据时代,单机装下PB级的数据,然后在可接受的时间内处理完,不可能,所以一定是分布式的。转载 2017-03-05 18:13:51 · 258 阅读 · 0 评论 -
spark core组件:RDD、DataFrame和DataSet介绍、场景与比较
spark生态系统中,Spark Core,包括各种Spark的各种核心组件,它们能够对内存和硬盘进行操作,或者调用CPU进行计算。spark core定义了RDD、DataFrame和DataSetspark最初只有RDD,DataFrame在Spark 1.3中被首次发布,DataSet在Spark1.6版本中被加入。 RDD是什么?RDD:Spark的核心概念转载 2017-03-05 18:23:10 · 1162 阅读 · 0 评论 -
Spark开发语言Scala语言
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。本文将介绍3个Scala Spark编程实例,分别是WordCount、TopK和SparkJoin,分别代表了Spark的三种典型应转载 2017-03-05 19:35:58 · 1951 阅读 · 1 评论 -
spark sql由入门到精通
(一)开始Spark中所有相关功能的入口点是SQLContext类或者它的子类, 创建一个SQLContext的所有需要仅仅是一个SparkContext。val sc: SparkContext // An existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc转载 2017-03-05 19:59:55 · 409 阅读 · 0 评论 -
Spark Streaming场景应用-Kafka数据读取方式
Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。本篇文章主要着眼于我们目前的业务场景,只关注Spark Streaming读取Kafka数据的方式。 Spark Streaming 官方提供了两种方式读取Kafka数据:一转载 2017-06-15 15:51:42 · 614 阅读 · 0 评论