路漫漫其修远兮,吾将上下而求索

享受代码优化的过程,爱优爱美

Spark SQL 函数操作

Spark 内置函数 使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果是返回一个Column对象,而DataFrame天生就是”A distributed collection of data organized i...

2016-12-11 13:04:50

阅读数:12915

评论数:0

Spark SQL 集成ElasticSearch的案例实战

Spark SQL 集成ElasticSearch的案例实战ElasticSearch 概念回顾 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apa...

2016-12-10 23:05:01

阅读数:7241

评论数:0

Spark SQL Hive数据源复杂综合案例实战

Spark SQL Hive数据源复杂综合案例实战(读写各种分区表)Hive数据源来源 Spark SQL除了支持SQLContext之外,还支持HIVESQL语法,利用HIVEContext来创建,HiveContext继承自SQLContext,但是增加了在Hive表中数据库中查找,同时也支持...

2016-12-10 23:03:52

阅读数:5169

评论数:0

Spark性能优化:数据倾斜调优

Spark性能优化:数据倾斜调优前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 1....

2016-12-08 14:24:10

阅读数:4265

评论数:0

Spark性能优化:资源调优篇

Spark性能优化:资源调优篇 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的...

2016-12-07 14:12:15

阅读数:3971

评论数:0

Spark性能优化:开发调优篇

Spark性能优化:开发调优篇1、前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项...

2016-12-07 12:33:32

阅读数:5256

评论数:0

Spark 开发调优(一)

Spark性能优化 - 开发调优优化一 避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,...

2016-12-07 10:36:28

阅读数:6229

评论数:2

spark internal - 作业调度

spark internal - 作业调度让我们看看在架构师的眼里,作业调度是一种怎样的形态 作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 在Spark中作业...

2016-12-04 14:24:59

阅读数:4023

评论数:0

Spark弹性分布式数据集RDD详解

【Spark】弹性分布式数据集RDD概述弹性分布数据集RDDRDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够...

2016-12-03 13:01:06

阅读数:6231

评论数:0

DAGScheduler源码解析(一)

Spark 源码理解 DAGSchedulerDAGScheduler是Spark中比较重要的一部分,它属于高级调度,主要实现stage的划分,接着生成整个DAG图,以及如何为每个stage 生成任务集,并且将任务提交给TaskScheduler,基于这两点,我们对DAGScheduler的源码展...

2016-12-02 09:37:41

阅读数:4406

评论数:0

DAGScheduler 和 TaskScheduler 的关系

DAGScheduler 和 TaskScheduler的联系让我们看看这个图, 1.[Applicatio 1] Driver(代表一个Application) 2. [Job ==>1] 在SparkContext的创建过程中,sc会创建DAGScheduler和TaskSchedu...

2016-12-01 19:27:35

阅读数:4413

评论数:0

Spark Worker内部工作原理

Worker Worker是一个基于AKKA Actor 的Actor模型,和Master,Driver,进行通信的时候 都是通过在receiver方法中进行样例类的时间匹配,支持Worker同时实现了ActorLogReceive的trait,ActorLogReceive里面复写recei...

2016-12-01 14:22:48

阅读数:5217

评论数:0

SparkConext的构建过程

SparkContext 的构建的过程SparkContext的初始化综述 SparkContext是进行Spark应用开发的主要接口,是Spark上层应用与底层应用实现的中转站,即整个应用的上下文,控制应用的生命周期。 SparkContext在初始化的过程中,主要涉及以下内容SparkEnv:...

2016-12-01 00:03:39

阅读数:4216

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭