2015年06月_self-motivation

原创 Spark流编程指引(四)---------------------------DStreams基本模型，输入DStreams和接收者

离散流（DStreams）离散流或者称为DStreams是Spark流编程提供的基本抽象。它代表了持续的数据流，从一个数据源接收到的数据流或者是在一个输入流上应用转变操作处理后的数据流。在内部实现上，DStream代表了一系列连续的RDDs.RDDs是Spark对不可变的，分布式数据集的抽象。DStream中的每个RDD包含了一定间隔内的数据，正如下图所示：任何应用在DStream上的

2015-06-29 15:41:31 2805

转载 Ruby高手点评Scala编程语言十大绝招

【51CTO精选译文】几个月前，我开始使用 Scala。我用过的编程语言还有 Pascal、C、C++、Java、PHP、Ruby 和 Groovy，但是，与所有那些我用过的语言相比，我发觉 Scala 是一门与众不同的语言。我是在看到 Twitter 上关于 Ruby 和 Scala 讨论之后，才开始我的 Scala 编程之旅的。现在，使用 Scala 编程已经几个月了，关于 Scala 我有两

2015-06-29 08:31:31 2918

原创 Spark流编程指引(三)-------------------------------------初始化StreamingContext

基本概念接下来，我们在上一节例子的基础上，来阐述Spark Streaming的基本知识。链接和Spark类似，Spark Streaming也包含在maven的中央仓库中。为了写基于Spark Streaming的程序，你需要为你的SBT或Maven工程分别添加以下依懒:Maven: org.apache.spark spark-str

2015-06-28 21:50:34 7035 1

原创 Spark流编程指引(二)----------------------一个快速的例子

在详细地学习如何写自己的Spark Streaming程序之前，我们先来快速地看一个简单的Spark Streaming程序的例子。我们现在要计算从一个TCP数据服务器接收到的文本数据中单词的个数。我需要向下面这样去做：首先,导入Spark Streaming的类；再导入一些StreamingContext的隐式转换，来增加来自其它类（比如DStream）的有用方法。Streaming

2015-06-28 11:31:55 1824

原创 Spark流编程指引(一)---------------------概述

Spark流是Spark核心API的扩展，它提供了以高扩展，高吞吐量，高容错性的流的方式来处理实时数据的方法。数据的涞源有很多，可以来自Kafka, Flume, Twitter, ZeroMQ, Kinesis或者TCP sockets。通过使用高级别的函数，比如map,reduce,join,window等，可以用复杂的算法来处理数据。最后，处理后的数据能够被推送至文件系统，数据库，或

2015-06-24 23:19:31 1836

原创 Spark编程指引(四)------------------共享变量(广播变量和累加器)

共享变量通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的，支持读写的共享变量是低效的。尽管如此，Spark提供了两种有限类型的共享变量，广播变量和累加器。

2015-06-23 23:34:00 39159 7

原创 Spark编程指引(三)-----------------RDD操作，shuffle和持久化

处理键－值对尽管Spark的大部操作支持包含所有对象类型的RDDs,但是还有一些操作只支持键－值对的的RDDs.最常见的是类似"洗牌"的操作，比如以键值来分组或聚合所有的元素。在Scala里，这些操作对包含2元组的RDD是自动可用的。（Scala语言内置的元组，通过(a,b)这样的形式创建）。对键－值对可用的操作在PairRDDFunctions类里，将自动包含在含有2元组的RDD里。

2015-06-20 21:51:08 17081 1

原创 Spark编程指引(二)---------------RDD介绍，闭包对RDD的影响，如何打印RDD。

RDD OperationsRDD支持两种操作类型：转换，从现有数据集创建一个新的数据集。动作：在数据集上进行计算，并对驱动程序返回一个值。比如，map是一个转换，它对数据集中的每个元素执行一个函数，然后返回一个新的RDD代表执行结果。reduce是一个动作，它通过一些函数聚合RDD中的所有元素，然后对驱动程序返回最后的结果。（虽然也有一个并行的reduceByKey函数返回一个分

2015-06-18 00:18:03 7928

原创 Spark编程指引(一)-------------Spark的重要抽象，如何使用Spark。

概述从上层来看，每个spark应用程序都是由驱动程序构成。这个驱动程序执行我们应用程序的main方法，并在集群上并行执行多种操作。

2015-06-14 22:17:16 2894

原创 spark基础(三)------------------------使用maven构建一个基于scala的spark应用程序。

这一章讲解一下如何使用maven构建我们的spark应用程序。首先，安装maven,在centos7上使用yum install maven直接安装。然后按照maven的约定，建立如下目录:./spark-demo./spark-demo/src./spark-demo/src/main./spark-demo/src/main/scala./spark

2015-06-14 20:11:58 19649

原创 spark基础(二)-----------scala在spark shell里的应用

这篇教程为使用spark提供一个快速的介绍。我们将先介绍spark shell的API(python or scala),然后展示如何用JAVA,PYTHON,SCALA写应用。请先安装SPARK，下载地址http://spark.apache.org/downloads.html，由于我们不使用HDFS，可以基于任何hadoop版本。通过spark shell进行交互式分析启

2015-06-07 20:00:33 8391

原创 spark基础(一)----------spark集群模型

spark应用程序在集群上作为一组独立的进程运行。在每个应用程序的主进程里，都有一个sparkContext对象,也被称为驱动程序，就是这个sparkContext对象负责与集群协调资源。具体来说，要在集群上运行，sparkContext可以连接多种不同的集群管理器（无论是spark自己的集群管理器还是Mesos or YARN).这些集群管理器为这些应用程序分配资源。sparkContext

2015-06-07 00:21:39 1491

happyAnger6的专栏