Spark2.1.0 + CarbonData1.0.0集群模式部署及使用入门

本文详细介绍了Apache CarbonData 1.0.0与Spark 2.1.0在集群模式下的部署过程,包括集群规划、系统环境配置、编译部署、数据准备、启动spark-shell、创建CarbonSession、建立数据库和数据表,以及数据导入和查询。CarbonData是一种列式数据格式,旨在提升大数据平台的性能。
摘要由CSDN通过智能技术生成

1 引言

Apache CarbonData是一个面向大数据平台的基于索引的列式数据格式,由华为大数据团队贡献给Apache社区,目前最新版本是1.0.0版。介于目前主流大数据组件应用场景的局限性,CarbonData诞生的初衷是希望通过仅保存一份数据来满足不同的应用场景,如:

  • OLAP
  • 顺序存取(Sequential Access)
  • 随机存取(Random Access)

CarbonData也被评为2016年的BLACKDUCK奖,有关CarbonData的相关资料如下:

本文主要介绍Spark2.1.0 + CarbonData1.0.0集群模式部署流程,并辅以一个小案例来讲解如何在spark shell下使用CarbonData。

2 准备工作

2.1 集群规划

id hostname mem cpu storage
1 master 32G Intel(R) Core(TM) i5-6400 CPU @ 2.70GHz SATA3 7200RPM 4T
2 slave1 32G Intel(R) Core(TM) i5-6400 CPU @ 2.70GHz SATA3 7200RPM 8T
3 slave2 32G Intel(R) Core(TM) i5-6400 CPU @ 2.70GHz SATA3 7200RPM 8T
4 slave3 32G Intel(R) Core(TM) i5-6400 CPU @ 2.70GHz SATA3 7200RPM 8T
5 slave4 32G Intel(R) Core(TM) i5-6400 CPU @ 2.70GHz SATA3 7200RPM 8T

2.2 系统环境

  • 操作系统

    • 下载地址:http://mirrors.163.com/
    • 建议版本:Unix-like environment (Linux, Mac OS X)
    • 版本查看:
      
      # 示例(CentOS)
      
      [hadoop@master ~]$ cat /etc/redhat-release 
      CentOS release 6.8 (Final)
  • JDK

  • Git

  • Maven

    • 下载地址:https://maven.apache.org/download.cgi
    • 建议版本:3.0.4
    • 版本查看:
      [hadoop@master ~]$ mvn -v
      Apache Maven 3.0.4 (bb52d8502b132ec0a5a3f4c09453c07478323dc5; 2015-11-11T00:41:47+08:00)
      Maven home: /opt/maven-3.0.4
  • Hadoop

  • Scala

    • 下载地址:http://www.scala-lang.org/
    • 建议版本:2.11.x
    • 版本查看:
      [hadoop@master ~]$ scala -version
      Scala code runner version 2.11.8 -- Copyright 2002-2016, LAMP/EPFL
  • Spark

    • 下载地址:http://spark.apache.org/downloads.html
    • 建议版本:2.1.0
    • 部署模式:Standalone/YARN
    • 版本查看:
      [hadoop@master spark-2.1.0]$ ./bin/spark-submit --version
      Welcome to
          ____              __
           / __/__  ___ _____/ /__
          _\ \/ _ \/ _ `/ __/  '_/
         /___/ .__/\_,_/_/ /_/\_\   version 2.1.0
            /_/
      
      Using Scala version 2.11.8, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_60
      
      [hadoop@master ~]$ echo $SPARK_HOME
      /opt/spark-2.1.0
  • Thrift

3 编译及部署

3.1 编译

  • Step 1:源码下载

    $ git clone https://github.com/apache/incubator-carbondata.git carbondata
  • Step 2:修改Maven私有仓库地址(可选)

    由于网络原因,从Maven中央仓库下载jar包可能非常慢,大家可根据自己的实际情况修改为企业内部私有仓库或阿里云等外部源,如:

    
    # 修改conf/setting.xml文件
    
    <mirrors>
    <mirror>        
      <id>nexus</id>        
      <name>nexus</name>        
      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
      <mirrorOf>*</mirrorOf>        
    </mirror>
    </mirrors>
  • Step 3:编译打包

    [hadoop@master ~]$ cd carbondata
    [hadoop@master carbondata]$ mvn clean package -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 -Phadoop-2.7.2

    在编译打包的过程中,maven会自动下载所依赖的jar包,但可能还会有部分jar包无法下载成功导致打包失败的情况,此时需要我们手动去网上下载并将对应的jar包放到Maven localRepository的对应目录下并重新执行上述命令,执行成功后,会出现以下提示:

    [INFO] ------------------------------------------------------------------------
    [INFO] Reactor Summary:
    [INFO]
    [INFO] Apache CarbonData :: Parent ........................ SUCCESS [  1.319 s]
    [INFO] Apache CarbonData :: Common ........................ SUCCESS [16:82 min]
    [INFO] Apache CarbonData :: Core .......................... SUCCESS [03:23 min]
    [INFO] Apache CarbonData :: Processing .................... SUCCESS [  8.623 s]
    [INFO] Apache CarbonData :: Hadoop ........................ SUCCESS [  6.237 s]
    [INFO] Apache CarbonData :: Spark Common .................. SUCCESS [ 52.524 s]
    [INFO] Apache CarbonData :: Spark2 ........................ SUCCESS [ 50.118 s]
    [INFO] Apache CarbonData :: Spark Common Test ............. SUCCESS [ 25.072 s]
    [INFO] Apache CarbonData :: Assembly ...................... SUCCESS [  5.521 s]
    [INFO] Apache CarbonData :: Spark2 Examples ............... SUCCESS [  8.742 s]
    [INFO] ------------------------------------------------------------------------
    [INFO] BUILD SUCCESS
    [INFO] ------------------------------------------------------------------------
    
  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值