1.spark功能接口——SparkContext
SparkContext是spark功能的主要入口。其代表与spark集群的连接,能够用来在集群上创建RDD、累加器、广播变量。每个JVM里只能存在一个处于激活状态的SparkContext,在创建新的SparkContext之前必须调用stop()来关闭之前的SparkContext。
原文链接:https://blog.csdn.net/weixin_43878293/article/details/90020221
- SparkContext对象是使用Spark的入口,所以使用spark首先要创建一个SparkContext对象。
- 创建SparkContext对象首先要创建一个sparkconf对象。SparkConf负责管理所有Spark的配置项,sparkconf对象中包含了需要传递给SparkContext的配置参数
sparkconf = (SparkConf().set(“spark.yarn.queue”, “celuemoxingbu_map_service”)
.setAppName(“xjytest”)
.set(“spark.dynamicAllocation.minExecutors”, “100”)
.set(“spark.dynamicAllocation.maxExecutors”, “200”)
.set(“spark.rpc.message.maxSize”, “2000”))
其中:SparkConf()创建一个新的sparkconf对象,set(key,value)表示设置配置参数
set(“spark.yarn.queue”, “celuemoxingbu_map_service”)
spark.yarn.queue表示yarn上使用的队列名,默认为default
spark.dynamicAllocation.minExecutors 动态资源调配最小exeuctors
spark.rpc.message.maxSize:executors和driver间消息传输、map输出的大小,默认128M。map多可以考虑增加。
spark 常见参数配置:spark常见参数配置
setAppName(“cljtest”):设置程序名
创建SparkContext对象:sc=SparkContext(conf=sparkconf)
2.hive 对象
hc=HiveContext(sc)#创建了一个hive对象
2.RDD简介
RDD是spark中的一个基本数据结构,是一个数据记录的不可