Spark
云聪
喜欢简洁的抽象,也着迷神奇的细节,我担心自己因为过于偏向抽象而变得肤浅,也害怕自己因为太过深入细节而迷失,这让我很痛苦,但是我不会放弃挣扎,因为我相信挣扎的过程就是成长。
展开
-
Spark Core and Cluster Managers(翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis)
Spark CoreSpark Core 包含了Spark提供的基本功能,包括任务调度,内存管理,容错,与存储系统交互等。Spark Core也是定义RDD的API的地方,RDD(resilient distributed dataset)是Spark的主要编程抽象。RDD是一个元素的集合,而集合中的元素分布在许多计算节点中,这些元素可以被并行的操作。Spark Core提供了很多API来创建翻译 2015-08-27 19:59:10 · 1185 阅读 · 0 评论 -
Spark是什么?(翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis)
Spark是一个集群计算平台,它的设计理念是快速和通用。在速度方面,Spark继承了流行的MapReduce模型,但支持更多类型的计算,包括交互查询和流处理。在处理大数据集的时候,速度是非常重要的,它意味着你是交互式的研究数据,花几分钟甚至几小时去等待结果。Spark提高速度的方式之一是内存计算,但是,对于运行在硬盘上的复杂应用程序,Spark依旧比MapReduce快。在通用性方面,Sp翻译 2015-08-27 19:34:11 · 950 阅读 · 0 评论 -
Spark核心概念介绍(翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis)
既然你已经在shell里运行了你的第一个Spark代码片段,是时候来学习在shell里面编程的更多细节了。从上层看,每一个Spark程序都是由一个驱动程序组成,这个驱动程序在集群上发布各种各样的平行操作。驱动程序包含你的应用程序的main函数,定义在集群上的分布式数据集,并且将一些操作作用在这些数据集上。在之前的例子中,驱动程序是Spark shell本身,你只需要在里面输入你想要运行翻译 2015-08-29 20:35:53 · 1312 阅读 · 0 评论 -
单独的应用程序(翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis)
在这次对Spark粗略的讲解过程中,我们还没有讲如何在单独的应用程序中使用Spark。撇开交互式运行来说,我们能在Java,Scala或这Python程序中连接Spark。与在shell中连接Spark相比,唯一的区别是,在程序中,你需要自己初始化SparkContext 。连接Spark的过程因语言而异。在Java和Scala中,你在你的应用程序的Maven依赖中添加对spark-c翻译 2015-08-30 00:56:46 · 1243 阅读 · 0 评论 -
Spark的Python和Scala shell介绍(翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis)
Spark提供了交互式shell,交互式shell让我们能够点对点(原文:ad hoc)数据分析。如果你已经使用过R,Python,或者Scala中的shell,或者操作系统shell(例如bash),又或者Windows的命令提示符界面,你将会对Spark的shell感到熟悉。但实际上Spark shell与其它大部分shell都不一样,其它大部分shell让你通过单个机器上的磁盘或者内翻译 2015-08-28 23:48:51 · 2049 阅读 · 0 评论 -
Spark中使用HanLP分词
1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如: root=hdfs://localhost:9000/tmp/2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口: public static class HadoopFileIoAdapter implements原创 2017-06-08 18:09:53 · 4471 阅读 · 3 评论