spark
文章平均质量分 77
快乐程序员
从事hadoop/hbase/hive/impala运维和研究
展开
-
hive on spark部署
本文档相关软件的版本:spark-1.0.2、hadoop2.4.0和hive-0.13.0一、编译打包1、准备 将 hadoop gateway所使用的 hadoop 相关配置文件(*-site.xml)放到 spark 的代码里的 core/src/main/resources/下进行打包,否则可能会出现找不到rm以及 nn 等情况。 参考文档:《sp原创 2014-09-17 15:44:15 · 2463 阅读 · 0 评论 -
Spark RDD API详解(一) Map和Reduce
转载地址:https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无转载 2015-03-02 17:19:51 · 1237 阅读 · 0 评论 -
理解Spark的核心RDD
转载地址:http://www.infoq.com/cn/articles/spark-core-rdd与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的转载 2015-03-02 14:38:58 · 989 阅读 · 0 评论 -
Spark Streaming容错的改进和零数据丢失
转载地址:http://www.csdn.net/article/2015-03-03/2824081 实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从driver和worker故障恢复的能力。然而有些数据源的输入可能在故障恢复以后丢失数据。在Spark 1.2版本中,我们已经在Spark转载 2015-03-04 18:31:38 · 1158 阅读 · 0 评论