mmicky20110730-CSDN博客

原创 spark1.1.0学习路线

经过一段时间授课，积累下不少的spark知识，想逐步汇总成资料，分享给小伙伴们。对于想视频学习的小伙伴，可以访问炼数成金网站的《spark大数据平台》课程，每周的课程是原理加实际操作。最新的课程是第3期，至于费用，越认真学习，学习成本越低。从Spark1.1.0开始，重新规划了一下学习路线，由于涉及的内容比较多，会不断的完善其中的内容，争取在Spark1.2.0形成一个完整的体

2014-10-24 12:12:38 6309

原创 Spark1.0.0 学习路线

Spark1.0.0系列博客之引导篇，从预览篇、原理篇、运维篇、生态环境、源码篇、开发篇六个角度来介绍spark1.0.0。

2014-05-13 15:24:24 8352

正如人类社会的发展，计算机的计算开始了一场计算框架蜕变的运动，由“高富大”走向了“屌丝”计算的演变过程，而hadoop在这演变的过程中充当了急先锋的角色。从接触hadoop2.x开始，已经有很长一段时间，总结一下自己的学习路线：1：原理篇HDFS原理（计划中）MapReduce原理（计划中）YARN原理（计划中）2：运维hadoop2.2.0测试环境搭建Hadoop2.2.0生产环境模拟 hado

2014-05-13 15:24:22 3280

原创 sparkSQL1.1入门之三：sparkSQL组件之解析

上篇在总体上介绍了sparkSQL的运行架构及其基本实现方法（Tree和Rule的配合），也大致介绍了sparkSQL中涉及到的各个概念和组件。本篇将详细地介绍一下关键的一些概念和组件，由于hiveContext继承自sqlContext，关键的概念和组件类似，只不过后者针对hive的特性做了一些修正和重写，所以本篇就只介绍sqlContext的关键的概念和组件。概念：Logi

2014-10-27 10:58:09 7048

原创 sparkSQL1.1入门之九：sparkSQL之调优

spark是一个快速的内存计算框架；同时是一个并行运算的框架。在计算性能调优的时候，除了要考虑广为人知的木桶原理外，还要考虑平行运算的Amdahl定理。木桶原理又称短板理论，其核心思想是：一只木桶盛水的多少，并不取决于桶壁上最高的那块木块，而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上，系统的最终性能取决于系统中性能表现最差的组件。例如，即使系统拥有充足的内存资源和

2014-10-23 11:28:21 10282

原创 sparkSQL1.1入门之十：总结

回顾一下，在前面几章中，就sparkSQL1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。基本概念：SchemaRDDRuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan运行架构：sqlContext运行架构hiveContext运行架构基本操作原生RDD的操作parquet文件的操作j

2014-10-23 11:19:47 3302

原创 sparkSQL1.1入门之四：深入了解sparkSQL运行计划

前面两章花了不少篇幅介绍了SparkSQL的运行过程，很多读者还是觉得其中的概念很抽象，比如Unresolved LogicPlan、LogicPlan、PhysicalPlan是长得什么样子，没点印象，只知道名词，感觉很缥缈。本章就着重介绍一个工具hive/console，来加深读者对sparkSQL的运行计划的理解。1：hive/console安装 spa

2014-10-22 08:59:39 5849

原创 sparkSQL1.1入门之二：sparkSQL运行架构

在介绍sparkSQL之前，我们首先来看看，传统的关系型数据库是怎么运行的。当我们提交了一个很简单的查询：SELECT a1,a2,a3 FROM tableA Where condition 可以看得出来，该语句是由Projection（a1，a2，a3）、Data Source（tableA）、Filter（condition）组成，分别对应sql查询过程中的Result

2014-10-10 09:15:04 9498

原创 sparkSQL1.1入门之一：为什么sparkSQL

2014年9月11日，Spark1.1.0忽然之间发布。笔者立即下载、编译、部署了Spark1.1.0。关于Spark1.1的编译和部署，请参看笔者博客Spark1.1.0 源码编译和部署包生成。 Spark1.1.0中变化较大是sparkSQL和MLlib，sparkSQL1.1.0主要的变动有：增加了JDBC/ODBC Server（ThriftServer），

2014-09-15 09:46:59 16610

原创 sparkSQL1.1入门之八：sparkSQL之综合应用

Spark之所以万人瞩目，除了内存计算，还有其ALL-IN-ONE的特性，实现了One stack rule them all。下面简单模拟了几个综合应用场景，不仅使用了sparkSQL，还使用了其他Spark组件：店铺分类，根据销售额对店铺分类货品调拨，根据货品的销售数量和店铺之间的距离进行货品调拨前者将使用sparkSQL+MLlib的聚类算法，后者将使用s

2014-09-11 09:18:28 6957

原创 sparkSQL1.1入门之六：sparkSQL之基础应用

sparkSQL1.1对数据的查询分成了2个分支：sqlContext 和 hiveContext。在sqlContext中，sparkSQL可以使用SQL-92语法对定义的表进行查询，表的源数据可以来自：RDDparquet文件json文件在hiveContext中，sparkSQL可以使用HQL语法，对hive数据进行查询，sparkSQ

2014-09-10 09:16:16 20428

原创 sparkSQL1.1入门之五：测试环境之搭建

前面介绍了sparkSQL的运行架构，后面将介绍sparkSQL的使用。在介绍sparkSQL的使用之前，我们需要搭建一个sparkSQL的测试环境。本次测试环境涉及到hadoop之HDFS、hive、spark以及相关的数据文件，相关的信息如下：hadoop版本为2.2.0hive版本为0.13spark版本为1.1.0-rc3MySQL版本为5.6.12测试数据下载地点：http:

2014-09-10 08:47:39 6958

原创 sparkSQL1.1入门之七：ThriftServer和CLI

spark1.1相较于spark1.0，最大的差别就在于spark1.1增加了万人期待的CLI和ThriftServer。使得hive用户还有用惯了命令行的RDBMS数据库管理员很容易地上手sparkSQL，在真正意义上进入了SQL时代。下面先简单介绍其使用，限于时间关系，以后再附上源码分析。1：ThriftServer和CLI的命令参数A：令人惊讶的CLI

2014-09-09 10:41:31 16620 2

原创鸡肋的JdbcRDD

今天准备将mysql的数据倒腾到RDD，很早以前就知道有一个JdbcRDD，就想着使用一下，结果发现却是鸡肋一个。首先，看看JdbcRDD的定义： * An RDD that executes an SQL query on a JDBC connection and reads results. * For usage example, see test case

2014-07-23 16:22:33 10583

原创 Spark1.0.0 编程模型

Spark Application可以在集群中并行运行，其关键是抽象出RDD的概念（详见RDD 细解），也使得Spark Application的开发变得简单明了。下图浓缩了Spark的编程模型。 1：Spark应用程序的结构 Spark应用程序可分两部分：driver部分和executor部分初始化SparkContext和主体程序

2014-06-18 10:55:03 4948

原创 Spark1.0.0 history server 配置

在运行Spark应用程序的时候，driver会提供一个webUI给出应用程序的运行信息，但是该webUI随着应用程序的完成而关闭端口，也就是说，Spark应用程序运行完后，将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的，通过配置，Spark应用程序在运行完应用程序之后，将应用程序的运行信息写入指定目录，而Spark history serve

2014-06-17 22:45:49 8846 2

原创 Spark1.0.0 的监控方式

Spark1.0.0可以通过以下几种方式来对Spark应用程序进行监控：Spark应用程序的WebUI或者Spark Standalone的集群监控指标，然后通过支持指标收集的集群监控系统，如ganglia进行监控辅助监控工具1：WebUI Spark应用程序提交后，driver和Executor之间不断的交换运行信息，可以通过driver的4

2014-06-15 13:43:20 5085

原创 Spark1.0.0 开发环境快速搭建

在本系列博客中，为了解析一些概念、解析一些架构、代码测试，搭建了一个实验平台，如下图所示：本实验平台是在一台物理机上搭建的，物理机的配置是16G内存，4核8线程CPU。平台的环境配置如下：机器名配置角色软件安装hadoop12G内存，双核hadoop：NN/DN Spark：Master/worker /app/h

2014-06-12 15:19:17 8264

原创 Spark1.0.0 属性配置

1：Spark1.0.0属性配置方式 Spark属性提供了大部分应用程序的控制项，并且可以单独为每个应用程序进行配置。在Spark1.0.0提供了3种方式的属性配置：SparkConf方式SparkConf方式可以直接将属性值传递到SparkContext；SparkConf可以对某些通用属性直接配置，如master使用setMaster，

2014-06-09 01:34:58 8806 1

原创 Spark1.0.0 生态圈一览

Spark生态圈，也就是BDAS（伯克利数据分析栈），是伯克利APMLab实验室精心打造的，力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成，来展现大数据应用的一个平台，其核心引擎就是Spark，其计算基础是弹性分布式数据集，也就是RDD。通过Spark生态圈，AMPLab运用大数据、云计算、通信等各种资源，以及各种灵活的技术方案，对海量不透明的数

2014-06-08 13:45:42 6492 2

原创 Spark1.0.0 新特性

Spark1.0.0 release于2014-05-30日正式发布，标志Spark正式进入1.X的时代。Spark1.0.0带来了各种新的特性，并提供了更好的API支持；Spark1.0.0增加了Spark SQL这一个新的重要组件，用于加载和操作Spark的结构化数据；Spark1.0.0增强了现有的标准库（ML，streaming，GraphX??），同时还增强了Java和Python语言的

2014-06-02 14:32:32 4085

原创为什么学习Spark？

讲到Spark，我们要先讲将大数据，因为Spark是一个处理大数据的平台。那什么是大数据呢？大数据也称为海量数据，通常都是指TG级、PB级的数据，但是随着时间的流逝和验证，一些人们对大数据也发生了观念上的转变，而是把对企业有价值的数据称为大数据，它不一定大，但要有价值。近二十年来，随着计算机技术和互联网技术的高速发展，计算机在记录着人类的日常活动，如手机通讯、网站访问、微博留言、视

2014-05-13 15:24:20 3616

原创使用IntelliJ IDEA开发Spark1.0.0应用程序

之所以写本篇是因为后面很多博客需要例程来解析或说明。本篇是Spark1.0.0 开发环境快速搭建中关于客户端IDE部分的内容，将具体描述：

2014-05-13 15:24:17 13332 3

原创 Spark1.0.0 应用程序部署工具spark-submit

随着Spark的应用越来越广泛，对支持多资源管理器应用程序部署工具的需求也越来越迫切。随着Spark1.0.0的出现，这个问题得到了逐步的改善。从Spark1.0.0开始，Spark提供了一个容易上手的应用程序部署工具bin/spark-submit，可以完成Spark应用程序在Standalone、YARN、Mesos上的快捷部署。1：使用说明进入$SPARK_HOME目录，输入bin/spar

2014-05-13 15:24:15 21600 2

原创 Spark1.0.0 环境变量配置

又是一个坑

2014-05-13 15:24:13 1781

原创 Spark1.0.0 on YARN 运行架构实例解析

又是一个坑

2014-05-13 15:24:10 2364

原创 Stage 细解

Spark Application在遇到action算子时，SparkContext会生成Job，并将构成DAG图将给DAG Scheduler解析成Stage。Stage有两种：ShuffleMapStage 这种Stage是以Shuffle为输出边界其输入边界可以是从外部获取数据，也可以是另一个ShuffleMapStage的输出其输出可以是另一个Stage的开始ShuffleMapStage

2014-05-13 15:24:08 2913

原创 Task Scheduler 细解

1：Task Scheduler的作用

2014-05-13 15:24:06 3813

原创 DAG Scheduler 细解

1：DAG Scheduler的作用

2014-05-13 15:24:04 4223

原创 RDD 细解

占个茅坑先~

2014-05-13 15:24:01 3662 2

原创 Spark1.0.0 Standalone HA的实现

Spark Standalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存在着Master单点故障的问题。如何解决这个单点故障的问题，Spark提供了两种方案：基于文件系统的单点恢复基于zookeeper的Standby Masters本文中的测试是在Spark1.0.0 Standalone 模式部署上进行。1：基于文件系统的单点恢复主要

2014-05-13 15:23:57 2516

原创 Spark1.0.0 多语言编程之python实现

Spark公开了pyhton的编程模型-PySpark，开发者通过PySpark可以很容易开发Spark application。但是Python API和Scala API略有不同：Python是动态语言，RDD可以持有不同类型的对象PySpark目前并没有支持全部的API，但核心部分已经全部支持在PySpark里，RDD支持scala一样的方法，只不过这些方法是Python函数来实现的，返回的

2014-05-13 15:23:54 5882

原创 Spark1.0.0 多语言编程之Scala实现

Scala作为Spark的原生语言，在开发上Spark应用程序上最大的优势是支持所有的功能、容易追踪bug等。试过几种开发工具，笔者还是觉得IntelliJ IDEA开发Scala程序比较方便，当然Spark Application也一样。笔者的spark开发环境参见Spark1.0.0 多语言编程，本篇是对Spark1.0.0 多语言编程的需求进行scala实现。在开发Spark Applica

2014-05-13 15:23:52 3390

原创 Spark1.0.0 多语言编程

了解了spark编程的基本概念，可以看出spark编程都是围绕着RDD进行的。关于编程的基础知识，可以参看Spark1.0.0 编程模型。 spark目前支持scala、python、JAVA编程。作为spark的原生语言，scala是开发spark应用程序的首选，其优雅简洁的代码，令开发过mapreduce代码的码农感觉象是上了天堂。 spark也提供了pytho

2014-05-13 15:23:49 2805

原创关于SPARK_WORKER_MEMORY和SPARK_MEM

在spark中最容易混淆的是各种内存关系。本篇讲述一下SPARK_WORKER_MEMORY和SPARK_MEM。SPARK_WORKER_MEMORY是计算节点worker所能支配的内存，各个节点可以根据实际物理内存的大小，通过配置conf/spark-env.sh来分配内存给该节点的worker进程使用。在spark standalone集群中，如果各节点的物理配置不一样，conf/spark

2014-05-13 15:23:47 6047

原创 Spark1.1.0 源码编译和部署包生成

Spark1.1.0的编译对几种编译方法（Maven、SBT、make-distribution.sh）进行了配置项的统一，都可以使用Maven的profile配置项；另外，对于需要额外版权的集成组件也提供了Maven配置项，如spark-ganglia-lgpl、kinesis-asl，方便了用户的编译。在本例中，笔者使用的环境是hadoop2.2.0，支持hive，并和ganglia、kinesis-asl集成。

2014-05-13 15:23:45 11762 2

原创 HDFS实验之二：关于复制因子

Hadoop可以通过dfs.replication来设置block可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1 -put 70M logs/2可以通过命令来更改已经上传的文件的副本数：hadoop fs -setrep -R 3 /的复制数量。关于dfs.replication有以下几个特点：修改了dfs.replication，对已经上传了的

2014-05-13 15:23:42 5292

原创 HDFS实验之一：机架感知

1：背景缺省情况下，hadoop的replication为3，3个副本的存放策略为：第一个block副本放在和client所在的datanode里（如果client不在集群范围内，则这第一个node是随机选取的）。第二个副本放置在与第一个节点不同的机架中的datanode中（随机选择）。第三个副本放置在与第二个副本所在节点同一机架的另一个节点上。如果还有更多的副本就随机放在集群的da

2014-05-13 15:23:40 2614

原创 Spark1.0.0 on Standalone 运行架构实例解析

本篇是对Spark1.0.0 运行架构基本概念进行实例解析，加深对Spark的运行结构基本概念的理解。1：实验配置虚拟机cdh1（4G内存，1CPU*2CORE）虚拟机cdh2（4G内存，1CPU*2CORE）虚拟机cdh3（4G内存，1CPU*2CORE）spark配置：conf/spark-env.shexport SPARK_MASTER_IP=cdh1export SPARK_WORKER

2014-05-13 15:23:38 3588

原创 Spark1.0.0 运行架构基本概念

Spark Application的运行架构由两部分组成：driver program（SparkContext）和executor。Spark Application一般都是在集群中运行，比如Spark Standalone、YARN、mesos，这些集群给Spark Applicaiton提供了计算资源和这些资源管理，这些资源既可以给executor运行，也可以给driver program

2014-05-13 15:23:35 10603 3

Xceed.Ultimate.Suite.2009.v3.2.9356.Incl.Keygen （12-13）

Xceed Ultimate Suite是一个包括了所有Xceed顶级.NET和ActiveX可视化组件的开发工具包。品质特点：所有组件都提供完全免费的二次分发的权利。所有的组件都具有非常充分的文档资料并且包括了一系列的示范程序。所有组件都是多线程的，被独立设计不依靠任何其它额外的运行库文件。所有的组件都具有丰富的功能并且易于使用。 BluePrint版本为高级用户提供所包括的.NET组件的全部源代码。发布说明：适用于安装.NET和ActiveX作业平台，包含注册机。

2010-03-25