CarbonData使用示例（java）

最新推荐文章于 2024-08-07 09:10:26 发布

微溪

最新推荐文章于 2024-08-07 09:10:26 发布

阅读量7.2k

点赞数

分类专栏： CarbonData saprk 文章标签：大数据 CarbonData

本文链接：https://blog.csdn.net/u013181284/article/details/77574094

版权

Apache CarbonData是一种高效的大数据文件格式，通过优化的柱状存储、索引、压缩和编码技术提升查询速度。本文详细介绍了如何在Spark Shell下使用CarbonData，以及如何通过spark-submit执行CarbonData任务，并提供了编写Java CarbonData Spark程序的步骤，包括pom.xml配置和添加依赖jar。

摘要由CSDN通过智能技术生成

Apache CarbonData是一种新的大数据文件格式，使用先进柱状存储，索引，压缩和编码技术实现更快速的交互式查询，以提高计算效率，将有助于加速查询超过PetaBytes数量级数据的速度。查询性能对比详细见carbondata 测试报告,安装文档详细见carbondata 安装文档
本文将介绍如何使用carbondata，以及如何编写一个carbondata 的saprk程序
一、在spark shell 下使用carbondata
1、使用外部包加载的方式启动carbondata 的spark shell:
spark-shell –jars /data1/bd/carbondata/carbondata_2.10-1.1.0-shade-hadoop2.2.0.jar
2、启动后，引入carbondata的context

   import org.apache.spark.sql.CarbonContext //引入CarbonContext包
   val cc = new CarbonContext(sc, "hdfs://base/user/hive/warehouse/dw_behavior_pageview_carbondatats2") //创建一个CarbonContext，里面的路径是carbondata 的存储路径
     cc.sql("""show create table dw_open_biz_order_part_carbondata """) //执行sql语句
          // 执行查询语句
   cc.sql("""select cinemano, count(distinct orderid) from dw_open_biz_order_part_carbondata  group by cinemano""")
          //执行updata更新数据
     cc.sql("""UPDATE dw_open_biz_order_part_carbondata SET (openid) = ('o0aT-d5MmmrqSPmM5ewiHkrcnDpY') where dt='2017-07-02' and openid='test_o0aT-d5MmmrqSPmM5ewiHkrcnDpY'""").show()
     cc.sql(""" select dt,openid from dw_open_biz_order_part_carbondata where dt='2017-07-02' and openid='test_o0aT-d5MmmrqSPmM5ewiHkrcnDpY' """).show()