Spark
文章平均质量分 77
Agile牧
最重要的,拥有跟随内心与直觉的勇气,你的内心与直觉多少已经知道你真正想要成为什么样的人。任何其它事物都是次要的。
展开
-
Spark编译
原创 2016-04-25 16:56:41 · 84 阅读 · 0 评论 -
Spark HA
HADOOP_HOME=/home/hadoop/app/hadoop-2.6.4export HIVE_HOME=/home/hadoop/app/apache-hive-1.2.1-binexport HBASE_HOME=/home/hadoop/app/hbase-1.1.4export STORM_HOME=/home/hadoop/app/apache-storm-1.0.0export ZOOKEEPER_HOME=/home/hadoop/app/zookeeper-3.4.原创 2016-04-26 16:37:36 · 275 阅读 · 0 评论 -
Spark整合HDFS、WordCount示例
sh 添加如下export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.4/etc/hadoop 保存退出,将spark-env.sh分发到其他两个节点scp spark-env.sh hadoop-0000:/home/hadoop/app/spark-1.6.1-bin-hadoop2.6/confscp spark-env.sh hadoop-0001:/home/hadoop/app/spark-1.6.1-bin-hado原创 2016-04-27 11:02:16 · 180 阅读 · 0 评论 -
Spark RDD特点
llel. RDD特点:A list of partitions —— 一系列的分片:比如说64M一片;类似于Hadoop中的splitA function for computing each split —— 在每个分片上都有一个函数去迭代/执行/计算它A list of dependencies on other RDDs —— 一系列的依赖:RDDa转换为RDDb,RDDb转换为RDDc,那么RDDc就依赖于RDDb,RDDb就依赖于RDDaOptionally, a Pa原创 2016-04-27 14:03:19 · 107 阅读 · 0 评论 -
High-level Spark architecture
y large batch-analytic jobs, MapReduce has proven to be suboptimal for applications like graph analysis that require iterative processing and data sharing. Spark is designed to provide a more flexible model that supports many of the multipass applicati原创 2016-11-07 09:49:50 · 125 阅读 · 0 评论 -
Spark Build
配置Linux下的环境变量(hadoop、hbase、hive以及zookeeper可以忽略)vi .bashrc# setup Java & Hadoop environmentexport JAVA_HOME=/home/spark/app/jdk1.7.0_80export SCALA_HOME=/home/spark/app/scala-2.11.8export MVN_HOME=/home/spark/app/apache-maven-3.3.9expo原创 2016-11-11 11:05:42 · 166 阅读 · 0 评论