Spark
文章平均质量分 69
henry860916
水滴石穿
展开
-
Spark on Hadoop Yarn 部署
前提:haoop yarn已经部署完毕,关于hadoop yarn的部署已经在前面文章中说明1. 安装scala下载scala-2.11.7.tgzsudo ln -s /home/tizen/share/software/scala-2.11.7 scalaexport SCALA_HOME=/usr/local/scalaexport PATH=$PATH:$SCA原创 2016-01-19 19:38:39 · 539 阅读 · 0 评论 -
spark 命令行环境 python
1. 安装python,安装好后查看python版本$ python --versionPython 2.7.6从下面的pyspark.sh中可以看出,默认是支持2.7的python(spark版本是spark-1.6.0-bin-hadoop2.6)if hash python2.7 2>/dev/null; then # Attempt to use Python 2.7,原创 2016-01-24 10:09:35 · 7659 阅读 · 0 评论 -
我理解的云计算与大数据
刚接触云没多久,这里针对当前的云概念,提出自己的个人看法,每个人都有自己的见解与抉择,不喜勿喷~~首先,大家都知道根据云层次不同,主要分为以下三层SAAS:software as a service,即软件作为一种服务提供给用户PAAS:platform as a service,即平台作为一种服务提供给用户IAAS:infrastructure as a service,即基础设原创 2016-01-04 20:23:25 · 2028 阅读 · 0 评论 -
Spark PairRDD 行动与数据分区
package edu.berkeley.simple_project;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import java.util.Map;import java.util.Map.Entry;import org.apache.spark.HashPartiti原创 2016-02-03 19:55:00 · 1374 阅读 · 0 评论 -
Spark RDD 转化
package com.fei.simple_project;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.原创 2016-01-30 21:16:22 · 1666 阅读 · 0 评论 -
Spark PairRDD 转化二
package edu.berkeley.simple_project;import java.util.ArrayList;import java.util.Arrays;import java.util.Comparator;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spa原创 2016-02-02 20:17:41 · 4372 阅读 · 0 评论 -
Spark PairRDD 转化一
package edu.berkeley.simple_project;import java.util.ArrayList;import java.util.Arrays;import java.util.Comparator;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spa原创 2016-02-01 20:51:31 · 709 阅读 · 0 评论 -
Spark RDD 转化与行动基础
package com.fei.simple_project;import org.apache.spark.api.java.function.Function;public class ContainsSomething implements Function { private String query; public ContainsSomething(String mquer原创 2016-01-30 17:22:07 · 632 阅读 · 0 评论 -
Spark RDD 行动
测试过程中会出现大量INFO,影响调试修改conf下log配置文件log4j.rootCategory=WARN, console原创 2016-01-31 11:42:59 · 538 阅读 · 0 评论 -
基于eclipse maven 开发 spark 集群计算
1. 根据前面的文章,搭建好spark on yarn的集群,即hadoop和spark均搭建成功/usr/local/hadoop/sbin/start-all.sh启动hadoo yarn6661 NameNode7163 ResourceManager7300 NodeManager7012 SecondaryNameNode3119 7512 Jps6795 Dat原创 2016-01-23 21:51:14 · 544 阅读 · 0 评论 -
eclipse + pydev + spark + hadoop
1. java 安装http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmljdk我选择linux x86版本gz注意安装好后,需要更新/usr/bin/java 软连接为解压后的javajava -version要显示下载后的版本号2. eclipse 安装htt原创 2017-05-24 16:01:30 · 1153 阅读 · 0 评论