spark
文章平均质量分 63
大师兄啊
做你自己想做的事~
展开
-
spark的standalone模式部署
1.安装配置JDK2.安装配置Spark,修改Spark配置文件(两个配置文件spark-env.sh和slaves)vim spark-env.sh#指定JAVA_HOME位置export JAVA_HOME=/usr/java/jdk1.7.0_45#指定spark老大Master的IPexport SPARK_MASTER_IP=spark1.zeng.cn#指定spark老大Master的...原创 2018-04-23 16:02:28 · 35407 阅读 · 0 评论 -
CentOS6.7-64bit编译hadoop2.6.4
1.下载maven(apache-maven-3.3.3-bin.tar.gz)http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz2.安装maventar -zxvf apache-maven-3.3.3-bin.tar.gz -C /usr/local3.添加环境变量v...原创 2018-04-23 16:04:18 · 35013 阅读 · 0 评论 -
Tranformation&Action
#常用Transformation(即转换,延迟加载)#通过并行化scala集合创建RDDval rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))#查看该rdd的分区数量rdd1.partitions.lengthval rdd1 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))val rdd2 = sc.paral...原创 2018-04-23 16:07:11 · 34965 阅读 · 0 评论 -
Spark集群安装(spark on yarn/statndalone)
Spark有三种运行模式,分别为:local模式-只运行在本地,相当于伪分布式standalone模式-这种模式只需要安装Spark即可,使用自带的资源管理器Spark on yarn/mesos模式-这种模式Spark将使用yarn/mesos作为资源管理器 一般来说,standalone适合只想体验一把Spark集群的人,如果想将Spark应用于生产环境,还需要借助第三方的...原创 2018-04-24 14:50:16 · 36093 阅读 · 0 评论 -
windows下 eclipse搭建spark java编译环境
环境:win10jdk1.8之前有在虚拟机或者集群上安装spark安装包的,解压到你想要放spark的本地目录下,比如我的目录就是D:\Hadoop\spark-1.6.0-bin-hadoop2.6/***注意:之前在linux环境下安装的spark的版本是spark-2.2.0-bin-hadoop2.6,但后来搭建eclipse的spark开发环境时发现spark-2...原创 2018-04-20 23:37:32 · 35287 阅读 · 0 评论 -
RDD的读取进内存的过程和输出数据图解
假如我们电脑的内存是512G的,我们要从数据源(hdfs)读取的数据大小是1T 所以我们不能将所有的数据都一次读取进内存,在hfds中的数据是以block块的形式存放着的,所以1T的数据分成了很多个block的块 HFDS (1T) 在内存会加载多个block块进来进行相应的计算然后生成一个rdd1的一部分(512G) 这一部分rdd1...原创 2018-04-25 14:12:13 · 36007 阅读 · 0 评论 -
spark流程源码解析
左边绿色的是客户端,右边的是我们要提交到的spark集群 不同的Master url会生成不同的TaskScheduler,而TaskScheduler是真真正正的去申请资源的,因为是不同的集群模式,所以他申请资源的方式不一样,所以生成的TaskScheduler的Barkend就不一样,而Barkend是真真正正和底层进行通讯的一个角色。yarn 的模式...原创 2018-05-04 15:34:31 · 35177 阅读 · 0 评论