如何用SparkSQL 创建kudu的关联表

最新推荐文章于 2023-09-07 07:03:01 发布

道友，且慢

最新推荐文章于 2023-09-07 07:03:01 发布

阅读量1.5k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/qqqq0199181/article/details/104017050

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

从kudu的官方文档中可以看到spark 如何集成kudu的。从文档中的demo可以看到，kudu表的创建只能调用NOSQL API 来实现，无法通过spark sql直接创建一张kudu表。spark sql查询kudu表也是先注册一张临时表后，才能用sql 语句查询的。

那么有没有方法在spark sql上直接提交一个Create DDL语句来创建一张关联kudu的表呢？
答案是：可以，通过 spark sql的USING OPTIONS语法实现，该语法是spark sql用来创建外部数据源的表的，我们可以通过该语法创建kudu数据源的表。

假设我们已经通过api 创建了一张kudu表kudu_test,接下来我们要通过spark sql 去创建一张关联表，spark_kudu_test。这样我们就能够通过spark sql去操作kudu的数据了。操作步骤如下：

将kudu-spark2_2.11-1.10.0.jar这个jar 包拷贝到/opt目录下。jar包可以去maven仓库下载
进入spark sql的命令行 ./spark-sql --jars /opt/kudu-spark2_2.11-1.10.0.jar
执行建表语句

CREATE TABLE spark_kudu_test(id1 int, id2 int, id3 string) USING org.apache.kudu.spark.kudu OPTIONS("kudu.master" "node1:7051,node2:7051,node3:7051","kudu.table" "kudu_test");

就这样，kudu表的关联表就建立出来了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

道友，且慢

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

客快物流大数据项目(四十四)：Spark操作Kudu创建表

Lansonli（蓝深李）的博客

02-21

1330

Spark操作Kudu创建表 Spark与KUDU集成支持： DDL操作（创建/删除）本地Kudu RDD Native Kudu数据源，用于DataFrame集成从kudu读取数据从Kudu执行插入/更新/ upsert /删除谓词下推 Kudu和Spark SQL之间的模式映射到目前为止，我们已经听说过几个上下文，例如SparkContext，SQLContext，HiveContext， SparkSession，现在，我们将使用Kudu引入一个KuduCon

大数据物流项目：主题及指标开发之如何对Kudu表数据分析【离线报表分析（1个主题）】（十）

Maynor的博客

05-28

1245

Logistics_Day10：主题及指标开发主要讲解：实时ETL转换开发，编写结构化流（StructuredStreaming）程序，实时从Kafka消费数据，进行ETL转换处理，最终保存到Ku.

参与评论您还未登录，请先登录后发表或查看评论

Kudu与Spark 集成

04-17

2495

1.环境 <properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> <kudu.version>1.5.0</kudu.version> </properties...

SparkSql篇3：SparkSql读写kudu

qq_38740498的博客

12-10

2077

SparkSql篇3：SparkSql读写kudu spark操作kudu的方式有很多，spark封装了KuduContext，里面有kudu的增删改查本文主要正对sparksql,利用外部数据源方式，直接从sql层面进行读写kudu 废话不多说，直接上干货 package kudu import org.apache.kudu.spark.kudu.KuduContext import or...

优化spark sql读取 kudu数据

shengjk1的博客

05-11

1777

1. 背景 2. 实战 3. 实战 1.背景通过 spark sql 读取 kudu 数据，由于 kudu 表只有 6 个 tablet ，所以 spark 默认只能启动 6 个 task，读取 kudu 数据，通过界面可以看到 kudu 的 scan 维持在 143M/s ，想要增大 spark 读取 kudu 的效率。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2020051118163413.png)2.修改通过追踪 kudu-spark...

Spark学习案例——SparkSQL结合Kudu实现广告业务分析

程研板的博客

09-04

2298

下方有数据可免费下载目录原始数据项目架构ETL处理业务一代码重构打包定时运行原始数据下载数据: 请点击我.提取码：3bm9 有两个文件，一个广告业务的data-test.json，一个ip.txt文件项目架构 ETL处理 data-test.json文件中每行有ip地址，需通过ip.txt文件进行解析，解析出地名，运营商等信息。但是data-test.json中的ip格式为123.23.3.11，而ip.txt中的ip格式为16777472——16778239十进制的形式，需将ip转化为十进制.

【硬刚大数据】2021年从零到大数据专家之Kudu篇

微信搜：import_bigdata，大数据领域硬核原创作者

08-14

651

欢迎关注博客主页：https://blog.csdn.net/u013411339 欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接： 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家之Hadoop/HDFS/Yarn篇 2021.

spark数据查询语句select_Spark学习之Spark SQL

weixin_35025136的博客

12-30

4877

Spark SQL一、Spark SQL基础1、Spark SQL简介Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执...

大数据OLAP技术体系学习框架

Lansonli（蓝深李）的博客

10-10

2151

利用框架的力量，看懂游戏规则，才是入行的前提大多数人不懂，不会，不做，才是你的机会，你得行动，不能畏首畏尾选择才是拉差距关键，风向，比你流的汗水重要一万倍，逆风划船要累死人的上面这些看似没用，但实际很重要，这里就不再具体说明，感兴趣的同学可以看看我的学习框架的重要性我是怎么坚持学习的怎么确定学习目标本栏目为缺少OLAP技术体系的同学全面整理的体系学习知识，内容是按不同的技术体系整理的，带你丰富大数据OLAP技术知识体系，想学会就得自律加坚持，赶快行动吧。

深度计算：大数据实战经验分享

程序员光剑

09-07

257

随着互联网、移动互联网、物联网等新型信息技术的发展，以及其相关产业的崛起，越来越多的人开始关注到如何从海量的数据中挖掘出有价值的信息，这是大数据时代的一个重要任务。而在实际工作当中，往往并不会像同行一样，遇上大数据分析的全面挑战，尤其是在某些关键环节中还存在很多挑战性的问题。比如，为了避免数据的泄露风险，在对原始数据进行处理过程中，需要满足大量的法律、监管和合规要求；为了保证数据质量，则需要提升数据采集、存储、处理、传输等环节的效率和成本；如何根据大数据进行快速有效的决策，也是一个需要解决的难题。

java操作kudu及sparksql

Losed_memory

04-09

677

首次接触大数据项目，用到了kudu及hadoop，为防忘记故写篇笔记以作参考 1）pom依赖  <dependency> <groupId>org.ap...

KUDU的API使用，不同客户端操作应对批处理与流处理

Kevin__Durant的博客

11-22

1115

背景当前公司为互联网金融公司，面对的业务方较多；风控部门的数据分析师，策略分析师，反欺诈分析师等，目前的数据量这些分析师使用Python以及MySQL是无法满足快速高效的分析的；商城、运营部门等的报表看板，定制化用户行为分析等。；目前的自主分析是使用的开源产品Superset做一部分的改造，接入Druid，ES，Impala，分析师们已经全部转到我们的平台，大部分的使用都是基于我们数仓的DWS，但是除此之外实时数据没有完全接入，这是目前的痛点，也是最需要做的；尝试使用HBase做映射使用Impala分析

Spark整合Kudu-创建表和增删改查操作

weixin_46235157的博客

03-24

2428

开启kudu: sudo /etc/init.d/kudu-tserver start sudo /etc/init.d/kudu-masterstart 首先你需要添加依赖 <dependency> <groupId>org.apache.kudu</groupId> <artifactId>kudu-client<...

Spark2.4.0和Scala2.11集成Kudu1.8.0遇到的坑

lzw2016的博客

08-08

1580

最近做实时数仓用到了spark和kudu两个组件，因为资料少得可怜，折腾了一番终于是搞定了，在这里记录下期间遇到的坑依赖选择参考kudu官网：https://kudu.apache.org/docs/developing.html#_kudu_integration_with_spark 官网上提及了几点关键信息 Use the kudu-spark_2.10 artifact if us...

kudu tablet design

空中的鱼

05-15

7963

Tablet是kudu表的水平分区，类似于google Bigtable的tablet，或者HBase的region。每个tablet存储着一定连续range的数据（key），且tablet两两间的range不会重叠。一张表的所有tablet包含了这张表的所有key空间。Tablet由RowSet组成，RowSet由一组rows组成（n条数据、n行数据）。RowSet是不相交的，即不同的RowSet

【学习】kudu、Impala、交互式查询

wa2003的博客

12-15

9644

1、Kudu Hadoop生态系统发展到现在，存储层主要由HDFS和HBase两个系统把持着，一直没有太大突破。在追求高吞吐的批处理场景下，我们选用HDFS，在追求低延迟，有随机读写需求的场景下，我们选用HBase，那么是否存在一种系统，能结合两个系统优点，同时支持高吞吐率和低延迟呢？有人尝试修改HBase内核构造这样的系统，即保留HBase的数据模型，而将其底层存储部分改为纯列式存储（目前HB

KUDU--秒级查询的数据仓库