spark整合hadoop

最新推荐文章于 2023-12-31 01:39:12 发布

weixin_33726318

最新推荐文章于 2023-12-31 01:39:12 发布

阅读量127

点赞数

文章标签：大数据 scala python

原文链接：https://my.oschina.net/goudingcheng/blog/823936

版权

2019独角兽企业重金招聘Python工程师标准>>>

Spark应用程序有两部分组成
1.Driver 2 Executor
Spark基本概念
Application基于Spark的用户程序，包含一个Driver 和集群的多个executor
Driver program运行Application的main函数并创建SparkContext通常用SparkContxet代表Driver Programe
Executor是为某Application运行在work node上的一个进程，该进程负责运行task，并且负责将数据存在内存
或者磁盘上，每个Application都有各自独立的executor
Cluster manager，在集群上获取集群资源的外部服务列如Standalone,Mesos ,yarn
worker node 集群中任何可以运行application代码的节点
task被送到某个executor的工作单元
job包含多个task组成的并行运算，往往由spark action催生，该术语可以经常在日志中看到
rdd由spark的基本计算单元，可以通过一系列算子操作，主要有transaformation和action操作
并行化scala集合
spark使用parallelize方法转换成RDD
val rdd1=sc.parallelize(Array(1,2,3,4,5))
val rdd2=sc.parallelize(List(0 to 10),5)
参数是slice对数据集切片，每一个slice启动一个task进行处理
Spark支持text files可以支持读取本地文件，支持整个目录读取，压缩文件的读取gzip 通配符的读取第二个参数是分片可选
使用wholeTextFiles读取目录里面的小文件
使用sequenceF可以将sequenceFile转换成rdd
使用hadoopRDD方法可以将其他任何hadoop的输入类型转化为RDD
广播变量
广播变量缓存到各个节点内存中，而不是每个task
广播变量创建后，能在任何运行的函数中调用
广播变量是只读的，不能在广播后修改
对于大数据集的广播，spark尝试用高效的传播算法来降低通信成本
使用方法 val broadcastVar=sc.broadcast(Array(1,2,3))
broadcastVar.value
累加器
累加器只支持加法操作
累加器可以高效的并行，用于实现计数器和变量求和
Spark支持原生类型和标准可变的集合计数器，但用户可以添加新的类型
只有驱动程序才能获取累加器的值
使用方法
val accnum=sc.accumulator(0)
sc.parallelize(Array(1,2,3,4)).foreach(x=>accnum+=x)
accnum.value

spark要启动start all
[root@localhost bin]# ./spark-submit --master spark://127.0.0.1:7077 --class week2.SougoQA --executor-memory 3g scala.jar hdfs://127.0.0.1:9000/dataguru/data/SogouQ1.txt hdfs://127.0.0.1:9000/dataguru/week2/output
./spark-submit --master --class week2.SougoQA --executor-memory 3g scala.jar hdfs://127.0.0.1:9000/dataguru/data/SogouQ1.txt hdfs://127.0.0.1:9000/dataguru/week2/output

转载于:https://my.oschina.net/goudingcheng/blog/823936