大数据学习20:Maven 理解 和 spark、hadoop、hive编译

一、Maven的一些含义:
groupId定义了项目属于哪个组,这个组往往和项目所在的组织或公司存在关联。
譬如你在googlecode上建立了一个名为myapp的项目,那么groupId就应该是com.googlecode.myapp,
如果你的公司是mycom,有一个项目为myapp,那么groupId就应该是com.mycom.myapp


artifactId定义了当前Maven项目在组中唯一的ID
version指定了Hello World项目当前的版本——1.0-SNAPSHOT。
SNAPSHOT意为快照,说明该项目还处于开发中,是不稳定的版本


二、使用maven命令编译、测试、打包、运行
Maven最主要的命令:mvn clean compile、mvn clean test、mvn clean package、mvn clean install。
执行test之前是会先执行compile的,执行package之前是会先执行test的,而类似地,install之前会执行package。


生成清除Eclipse项目结构:
mvn eclipse:eclipse
mvn eclipse:clean


清理(删除target目录下编译内容):
mvn clean


仅打包Web页面文件:
mvn war:exploded


打包时跳过测试:
mvn package -Dmaven.test.skip=ture


跳过测试运行maven任务:    
mvn -Dmaven.test.skip=true XXX


!!!几个编译的例子:
--编译 hadoop
mvn clean package -Pdist,native -DskipTests -Dtar


--编译spark
mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -Phive -Phive-thriftserver -DskipTests clean package
PS:
另外用其他的方式去编译spark
./dev/make-distribution.sh \
--name 2.6.0-cdh5.7.0 \
--tgz \
-Phadoop-2.6 \
-Dhadoop.version=2.6.0-cdh5.7.0 \
-Phive -Phive-thriftserver -Pyarn


--编译hive
mvn clean package -DskipTests -Phadoop-2 -Pdist 


-P,--activate-profiles <arg>   Comma-delimited list of profiles to activate  
主要涉及profiles配置文件,指定使用相应的profiles,也就是说在<profiles>指定的<id>中,可以通过-P进行传递或者赋值。
例:
如果你的pom.xml如下:
  <profiles>
      <profile>
          <id>test</id>
          ...
      </profile>
   </profiles>
执行mvn test -Ptest为触发配置文件。
或者
<profile>
   <id>test</id>
   <activation>
      <property>
         <name>env</name>
         <value>test</value>
      </property>
   </activation>
   ...
</profile>


-D,--define <arg>    Define a system property   
主要涉及propertites属性,将参数传入到对应的properties里面
要发送多个变量,请使用多个空格分隔符加-D:
例子:mvn -DpropA=valueA -DpropB=valueB -DpropC=valueC clean package
如果你的pom.xml如下:
<properties>
    <theme>myDefaultTheme</theme>
</properties>
那么在这个执行过程中mvn -Dtheme=halloween clean package会覆盖theme的值,具有如下效果:
<properties>
    <theme>halloween</theme>
</properties>


参考文档:
http://blog.csdn.net/wangjunjun2008/article/details/18982089
http://blog.csdn.net/yy193728/article/details/72847122
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Hive on Spark是一种将HiveSpark结合起来使用的方式,可以提高数据处理的效率和性能。下面是配置Hive on Spark的步骤: 1. 配置Maven 首先需要安装Maven,并配置好环境变量。可以在Maven官网下载最新版本的Maven。 2. 编译Spark 下载Spark源码,使用Maven编译Spark。在Spark源码目录下执行以下命令: mvn -DskipTests clean package 编译完成后,在target目录下可以找到编译好的Spark包。 3. 配置Hive 下载Hive源码,使用Maven编译Hive。在Hive源码目录下执行以下命令: mvn clean package -DskipTests -Pspark 编译完成后,在packaging/target目录下可以找到编译好的Hive包。 4. 配置SparkHive的环境变量 在.bashrc或.bash_profile文件中添加以下环境变量: export SPARK_HOME=/path/to/spark export HIVE_HOME=/path/to/hive 5. 配置Hive on SparkHive的conf目录下创建hive-site.xml文件,并添加以下配置: <property> <name>hive.execution.engine</name> <value>spark</value> </property> 6. 启动Hive on Spark 使用以下命令启动Hive on Spark: $HIVE_HOME/bin/hive --service sparkthriftserver 启动成功后,可以使用JDBC连接到Hive on Spark,并执行SQL语句。 ### 回答2: Hive on Spark是将HiveSpark结合起来使用的一种方式,通过Hive on Spark可以在Spark执行引擎上执行Hive的SQL语句,实现更好的性能和可伸缩性。在使用Hive on Spark之前,需要先进行一些配置和编译工作。 首先是配置Maven,需要在pom.xml文件中添加SparkHive on Spark的依赖。在配置Spark时,需要注意Spark的版本与Hive on Spark的版本的匹配,以避免出现兼容性问题。接下来需要在SparkHive的配置文件中,分别配置Spark的Master地址和Hive的元数据存储地址。 然后进行Spark编译工作,可以通过maven命令将spark源代码打包成jar文件。在编译过程中,需要根据实际情况添加必要的Spark插件和依赖项,以确保编译成功并与Hive on Spark兼容。 最后进行Hive的配置工作,需要在hive-site.xml文件中配置Hive on Spark的参数,如spark.master,spark.executor.memory等参数,以达到最优的运行效果。 总之,Hive on Spark的配置涉及多个方面,需要正确配置Maven依赖、SparkHive配置、进行Spark编译和进行Hive的参数配置,才能使Hive on Spark正常运行。配置过程中需要注意兼容性问题,以避免出现不必要的错误。 ### 回答3: Hive on Spark是基于Apache Spark的开源数据处理平台。用于支持对Hive进行实时查询和复杂分析的工具。为了配置Hive on Spark,需要以下步骤: 1.配置Maven 在进行Hive on Spark配置之前,需要先安装MavenMaven是一个用于管理Java项目的构建工具,它可以轻松地管理spark-core和spark-sql等包,从而方便Hive on Spark的使用。 2.编译SparkSpark官网下载源代码后,运行以下命令进行编译: ``` build/mvn -DskipTests clean package ``` 以上命令会跳过所有测试,并将代码打包成可执行的JAR文件。 3.配置Hive 在进行Hive on Spark配置前,需要先安装HadoopHive。安装好后,进行以下配置: 在hive-site.xml文件中添加以下配置: ``` <property> <name>hive.execution.engine.spark</name> <value>true</value> </property> <property> <name>spark.master</name> <value>local[*]</value> </property> <property> <name>spark.executor.memory</name> <value>2g</value> </property> ``` 4.将Spark包添加到Hive中 在Hive服务器上,进入Hive源代码目录,执行以下命令来将Spark包添加到Hive中: ``` ./build/dist/bin/addSbtPlugin.sh ``` 运行上述命令后,Spark包将被添加到Hive中。 5.使用Hive on Spark 现在,可以启动Hive并开始使用Hive on Spark。运行以下命令: ``` hive --hiveconf hive.execution.engine=spark ``` 以上就是Hive on Spark配置的过程。Maven管理Spark编译过程的包便于Hive on Spark使用和扩展。通过这些步骤,您可以轻松地开始使用Hive on Spark,从而帮助您更好地分析和管理数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值