锁屏面试题百日百刷-Spark篇(十五)

最新推荐文章于 2024-08-30 20:01:21 发布

zjlala96

最新推荐文章于 2024-08-30 20:01:21 发布

阅读量49

点赞数

分类专栏：面试题百日百刷 spark demo软件园文章标签： spark hive 大数据

原文链接：https://www.demosoftware.cn

版权

面试题百日百刷同时被 3 个专栏收录

84 篇文章 2 订阅

订阅专栏

demo软件园

71 篇文章 1 订阅

订阅专栏

spark

18 篇文章 0 订阅

订阅专栏

文章详细介绍了如何将Spark与Hive进行整合，包括复制hive-site.xml配置文件，设置metastore服务等步骤。同时，解释了Spark中的Partition概念，它是RDD的最小单元，其数量和分布由计算规则决定。此外，还提到了如何在spark-submit时引入外部jar包，提供了两种方法：通过--jars选项或设置extraClassPath参数。

摘要由CSDN通过智能技术生成

锁屏面试题百日百刷，每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线，官网地址：https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容，还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你在面试中先人一步!接下来的是今日的面试题：

1.spark怎么整合hive？

1）将hive的配置文件hive-site.xml复制到Spark conf目录下

2）根据hive的配置参数hive.metastore.uris的情况，采用不同的集成方式

a. jdbc方式：hive.metastore.uris没有给定配置值，为空(默认情况),SparkSQL通过hive配置的javax.jdo.option.XXX相关配置值直接连接metastore数据库直接获取hive表元数据, 需要将连接数据库的驱动添加到Spark应用的classpath中

b.metastore服务方式：hive.metastore.uris给定了具体的参数值,SparkSQL通过连接hive提供的metastore服务来获取hive表的元数据, 直接启动hive的metastore服务即可完成SparkSQL和Hive的集成:

3）使用metastore服务方式，对hive-site.xml进行配置

<name>hive.metastore.uris</name>

<value> trhift://mfg-hadoop:9083</value>

</property>

4）启动hive service metastore服务

bin/hive --service metastore &

5）启动spark-sql测试，执行 show databases命令，检查是不是和hive的数据库一样的。

2.Spark读取数据，是几个Partition呢？

从2方面介绍和回答，一是说下partition是什么，二是说下partition如何建的。

1）spark中的partion是弹性分布式数据集RDD的最小单元，RDD是由分布在各个节点上的partion组成的。partion是指的spark在计算过程中，生成的数据在计算空间内最小单元，同一份数据（RDD）的partion大小不一，

数量不定，是根据application里的算子和最初读入的数据分块数量决定的，这也是为什么叫“弹性分布式”数据集的原因之一。Partition不会根据文件的偏移量来截取的（比如有3个Partition，1个是头多少M的数据，1个是中间多少M的数据，1个是尾部多少M的数据），而是从一个原文件这个大的集合里根据某种计算规则抽取符合的数据来形成一个Partition的；

2）如何创建分区，有两种情况，创建 RDD 时和通过转换操作得到新 RDD 时。对于前者，在调用 textFile 和parallelize 方法时候手动指定分区个数即可。例如 sc.parallelize(Array(1, 2, 3, 5, 6), 2) 指定创建得到的 RDD 分区个数为 2。如果没有指定，partition数等于block数；对于后者，直接调用 repartition 方法即可。实际上分区的个数是根据转换操作对应多个 RDD 之间的依赖关系来确定，窄依赖子 RDD 由父 RDD 分区个数决定，例如 map操作，父 RDD 和子 RDD 分区个数一致；Shuffle 依赖则由分区器（Partitioner）决定，例如 groupByKey(new HashPartitioner(2)) 或者直接 groupByKey(2) 得到的新 RDD 分区个数等于 2。

3.spark-submit的时候如何引入外部jar包

方法一：spark-submit –jars

根据spark官网，在提交任务的时候指定–jars，用逗号分开。这样做的缺点是每次都要指定jar包，如果jar包少的话可以这么做，但是如果多的话会很麻烦。

命令：spark-submit --master yarn-client --jars ***.jar,***.jar

方法二：extraClassPath

提交时在spark-default中设定参数，将所有需要的jar包考到一个文件里，然后在参数中指定该目录就可以了，较上一个方便很多：

spark.executor.extraClassPath=/home/hadoop/wzq_workspace/lib/*

spark.driver.extraClassPath=/home/hadoop/wzq_workspace/lib/* 需要注意的是，你要在所有可能运行spark任务的机器上保证该目录存在，并且将jar包考到所有机器上。这样

做的好处是提交代码的时候不用再写一长串jar了，缺点是要把所有的jar包都拷一遍。