Spark Streaming场景应用-Kafka数据读取方式

Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。本篇文章主要着眼于我们目前的业务场景,只关注Spark Streaming读取Kafka数据的方式。 Spa...

2017-06-15 15:51:42

阅读数 470

评论数 0

基于Spark的用户行为路径分析

一、研究背景   互联网行业越来越重视自家客户的一些行为偏好了,无论是电商行业还是金融行业,基于用户行为可以做出很多东西,电商行业可以归纳出用户偏好为用户推荐商品,金融行业可以把用户行为作为反欺诈的一个点,本文主要介绍其中一个重要的功能点,基于行为日志统计用户行为路径,为运营人员提供更好的运...

2017-06-15 15:00:18

阅读数 2178

评论数 0

Spark-1.3.1与Hive整合实现查询分析

在大数据应用场景下,使用过Hive做查询统计分析的应该知道,计算的延迟性非常大,可能一个非常复杂的统计分析需求,需要运行1个小时以上,但是比之于使用MySQL之类关系数据库做分析,执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句,最终经过Hive查询解析器,翻译成Hadoop平台上的...

2017-03-29 18:44:23

阅读数 267

评论数 0

spark官方文档

1 概述(Overview) 总体来讲,每一个Spark驱动程序应用都由一个驱动程序组成,该驱动程序包含一个由用户编写的main方法,该方法会在集群上并行执行一些列并行计算操作。Spark最重要的一个概念是弹性分布式数据集,简称RDD(resilient distributed dataset ...

2017-03-23 00:48:53

阅读数 254

评论数 0

Spark性能优化

前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数...

2017-03-21 23:34:00

阅读数 106

评论数 0

spark sql 中出现的问题

1.高并发情况下的内存泄露的具体表现 很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。 a)在进行大量小SQL的压测过程中发现,有大量的activejob在spark ui上一直处于pendin...

2017-03-13 12:14:16

阅读数 854

评论数 0

Spark性能优化指南

数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象 绝大多数task执行得都非常快,但...

2017-03-09 14:21:30

阅读数 147

评论数 0

Spark on Mesos: 粗粒度与细粒度实现分析

Mesos粗粒度 CoarseMesosSchedulerBackend,是mesos的粗粒度scheduler backend实现。 简单说一下mesos的Scheduler,提供的回调函数,及spark实现的逻辑: Mesos Sc...

2017-03-07 20:56:42

阅读数 299

评论数 0

spark设计思想

1、spark的特点有哪些? 2、spark的基本概念有哪些? 3、spark的设计思想是什么? Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。...

2017-03-07 20:40:20

阅读数 1073

评论数 0

Spark架构简明分析

1.  RDD有哪些特性? 2.  如何理解Application、Job、Stage、TaskSet以及Task? 3.  Spark如何实现可插拔式的资源管理模块? 4.  Spark如何实现RPC通信模块? 5.  启动Standalone集群的流程是怎样的? ...

2017-03-07 20:33:59

阅读数 3407

评论数 0

Transformations转换入门经典实例

Spark相比于Mapreduce的一大优势就是提供了很多的方法,可以直接使用;另一个优势就是执行速度快,这要得益于DAG的调度,想要理解这个调度规则,还要理解函数之间的依赖关系。 本篇就着重描述下Spark提供的Transformations方法. 依赖关系宽依赖和窄以来 窄依赖(...

2017-03-07 20:30:59

阅读数 203

评论数 0

spark入门详解

1. Spark中的基本概念 在Spark中,有下面的基本概念。 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor Driver Program:运行Application的main()函数并创建SparkContext...

2017-03-07 20:24:36

阅读数 6622

评论数 0

Spark Core源码分析之RDD基础

RDD RDD初始参数:上下文和一组依赖 abstract class RDD[T: ClassTag](       @transient private var sc: SparkContext,       @transient private var dep...

2017-03-07 20:18:13

阅读数 260

评论数 0

spark sql由入门到精通

(一)开始 Spark中所有相关功能的入口点是SQLContext类或者它的子类, 创建一个SQLContext的所有需要仅仅是一个SparkContext。 val sc: SparkContext // An existing SparkContext. val ...

2017-03-05 19:59:55

阅读数 152

评论数 0

Spark开发语言Scala语言

Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。 本文将介绍3个Scala Spa...

2017-03-05 19:35:58

阅读数 420

评论数 0

spark core组件:RDD、DataFrame和DataSet介绍、场景与比较

spark生态系统中,Spark Core,包括各种Spark的各种核心组件,它们能够对内存和硬盘进行操作,或者调用CPU进行计算。 spark core定义了RDD、DataFrame和DataSet spark最初只有RDD,DataFrame在Spark 1.3中被首次发布,Data...

2017-03-05 18:23:10

阅读数 761

评论数 0

Spark大数据处理之从WordCount看Spark大数据处理的核心机制

大数据处理肯定是分布式的了,那就面临着几个核心问题:可扩展性,负载均衡,容错处理。Spark是如何处理这些问题的呢?接着上一篇的“动手写WordCount”,今天要做的就是透过这个大数据界的HelloWorld来看看Spark隐藏了哪些魔法。 请各位看官,带着分布式的问题往下看。 分布式架...

2017-03-05 18:13:51

阅读数 151

评论数 0

使用Spark Streaming + Elasticsearch搭建高可用、可扩展的App异常监控平台

如果在使用App时遇到闪退,你可能会选择卸载App、到应用商店怒斥开发者等方式来表达不满。但开发者也同样感到头疼,因为崩溃可能意味着用户流失、营收下滑。为了降低崩溃率,进而提升App质量,App开发团队需要实时地监控App异常。一旦发现严重问题,及时进行热修复,从而把损失降到最低。App异常监控平...

2017-03-05 17:25:42

阅读数 151

评论数 0

Spark Streaming基础原理

What is Spark Streaming 作为UC Berkeley云计算software stack的一部分,Spark Streaming是建立在Spark上的应用框架,利用Spark的底层框架作为其执行基础,并在其上构建了DStream的行为抽象。利用DStream所提供的api,用...

2017-03-05 17:06:39

阅读数 465

评论数 0

Spark Streaming实践和优化

一、Spark Streaming概述 Spark是美国加州伯克利大学AMP实验室推出的新一代分布式计算框架,其核心概念是RDD,一个只读的、有容错机制的分布式数据集,RDD可以全部缓存在内存中,并在多次计算中重复使用。相比于MapReduce编程模型,Spark具有以下几个优点: 更...

2017-03-05 17:01:48

阅读数 428

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭