大数据
shenlanzifa
这个作者很懒,什么都没留下…
展开
-
解决A master URL must be set in your configuration错误
在运行spark的测试程序SparkPi时,点击运行,出现了如下错误:Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configurationat org.apache.spark.SparkContext.(SparkContext.scala:18原创 2015-01-13 17:49:13 · 52457 阅读 · 14 评论 -
Hadoop生态系统介绍
1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是G转载 2014-12-25 11:22:06 · 582 阅读 · 0 评论 -
Hbase原理、基本概念、基本架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服转载 2014-12-25 14:27:37 · 555 阅读 · 0 评论 -
Spark RDD Cache算子的作用
我们经常会对RDD执行一系列Transformation算子操作,逻辑上每经历一次变换,就会将RDD转换为一个新的RDD,RDD会被划分成很多的分区分布到集群的多个节点中。分区是逻辑概念,变换前后的新旧分区在物理上可能是同一块内存存储。这是Spark内部做的优化,以防止函数式式树行局不可变行(immutable)导致的内存需求无限扩张。有些RDD是计算的中间结果,其分区并不一定有想对应的内存或磁盘原创 2015-01-14 16:53:16 · 7467 阅读 · 1 评论 -
RDD:基于内存的集群计算容错抽象
原文:http://shiyanjun.cn/archives/744.html该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译,我是基于科学网翻译基础上进行优化、修改、补充,这篇译文翻转载 2015-02-03 10:51:15 · 701 阅读 · 0 评论