spark2.3.0 源码编译,一次成功。

本文详细介绍了如何成功编译Spark 2.3.0源码,包括基础环境准备,如安装和配置maven 3.3.9,修改settings.xml以加速jar下载,设置maven编译内存,以及使用maven命令和Spark自带的打包脚本来编译和打包。特别提示,若要编译特定CDH版本,需在源码的pom文件中添加相应仓库。
摘要由CSDN通过智能技术生成

1》基础环境准备:

jdk1.8.0_101 
maven 3.3.9
scala2.11.8

安装好上述软件,配置好环境变量,并检查是否生效。

note:
2》maven 3.3.9 : 需要修改maven的安装目录下的conf/settings.xml文件中添加如下配置,以达到jar下载加速的效果

        <!-- 阿里云中央仓库 -->
     <mirror>
      <id>alimaven</id>
      <name>aliyun maven</name>
      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
      <mirrorOf>central</mirrorOf>
    </mirror>
  </mirrors>

3》设置maven编译内存

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

4.》

使用maven命令编译源码。

	 mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive -Phive-thriftserver  -DskipTests clean package

5》使用spark自带打包脚本打包。:

首先修改脚本:在spark源码包根目录下执行如下命令,

 vi dev/make-
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
Spark提供了与Hive集成的功能,可以在Spark中使用Hive的元数据、表和查询语言。要在Spark中使用Hive集成,您需要确保在Spark中启用Hive支持。 首先,您需要在启动Spark应用程序时配置Hive支持。您可以在SparkSession的配置中设置以下选项来启用Hive支持: ```python from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("Spark Hive Integration") \ .config("spark.sql.warehouse.dir", "/user/hive/warehouse") \ .enableHiveSupport() \ .getOrCreate() ``` 在上述示例中,我们通过将`spark.sql.warehouse.dir`配置设置为Hive仓库目录来启用Hive支持。 一旦启用了Hive支持,您可以使用SparkSession的`sql`方法执行Hive查询。例如,您可以执行以下操作来读取Hive表的数据: ```python df = spark.sql("SELECT * FROM database.table") ``` 在这里,`database.table`是您要查询的Hive表的名称。 需要注意的是,Spark会自动将Hive表中的数据加载为DataFrame,这样您就可以使用Spark的API进行数据处理和分析。 除了执行Hive查询,您还可以使用Spark的DataFrame API来创建、操作和管理Hive表。您可以使用`spark.catalog`来访问Hive的元数据信息,并使用DataFrame API来创建新表、插入数据等操作。 这就是Spark与Hive集成的基本概述。通过使用Spark和Hive的组合,您可以在Spark中利用Hive的元数据和查询能力,以及Spark强大的数据处理和分析功能。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值