spark学习

本文介绍了Spark的基本使用,包括SparkContext的创建及其配置,HiveContext的建立,以及RDD的创建、转化和行动操作。详细讲解了RDD的map、filter、flatMap等转化操作和collect、count、reduce等行动操作。此外,还提到了Spark SQL的HiveContext连接Hive的方法。
摘要由CSDN通过智能技术生成

1.spark功能接口——SparkContext
SparkContext是spark功能的主要入口。其代表与spark集群的连接,能够用来在集群上创建RDD、累加器、广播变量。每个JVM里只能存在一个处于激活状态的SparkContext,在创建新的SparkContext之前必须调用stop()来关闭之前的SparkContext。
原文链接:https://blog.csdn.net/weixin_43878293/article/details/90020221

  • SparkContext对象是使用Spark的入口,所以使用spark首先要创建一个SparkContext对象。
  • 创建SparkContext对象首先要创建一个sparkconf对象。SparkConf负责管理所有Spark的配置项,sparkconf对象中包含了需要传递给SparkContext的配置参数
    sparkconf = (SparkConf().set(“spark.yarn.queue”, “celuemoxingbu_map_service”)
    .setAppName(“xjytest”)
    .set(“spark.dynamicAllocation.minExecutors”, “100”)
    .set(“spark.dynamicAllocation.maxExecutors”, “200”)
    .set(“spark.rpc.message.maxSize”, “2000”))
    其中:SparkConf()创建一个新的sparkconf对象,set(key,value)表示设置配置参数
    set(“spark.yarn.queue”, “celuemoxingbu_map_service”)
    spark.yarn.queue表示yarn上使用的队列名,默认为default
    spark.dynamicAllocation.minExecutors 动态资源调配最小exeuctors
    spark.rpc.message.maxSize:executors和driver间消息传输、map输出的大小,默认128M。map多可以考虑增加。
    spark 常见参数配置:spark常见参数配置
    setAppName(“cljtest”):设置程序名

创建SparkContext对象:sc=SparkContext(conf=sparkconf)

2.hive 对象
hc=HiveContext(sc)#创建了一个hive对象
2.RDD简介
RDD是spark中的一个基本数据结构,是一个数据记录的不可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

暮后

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值