KUDU
文章平均质量分 67
AllenGd
人生之奋斗,其苦无穷,其乐无穷。
展开
-
kudu数据库不支持修改列属性
--修改列属性 --**不支持-----添加列 alter table APEX_REPORT.RRS_BI_SXQJ_DETAIL_AAAAA add columns(source_sn string);--删除列 ALTER table APEX_REPORT.RRS_BI_SXQJ_DETAIL_AAAAA drop column source_sn;kudu数据库不支持修改列属性kudu数据库无法修改表字段类型表创建好以后,如果想修改表中字段类型就没有办法了,因为...原创 2022-04-07 15:35:26 · 1254 阅读 · 0 评论 -
kudu分区(HASH、RANGE、HASH&RANGE)
1、分区表支持hash分区和range分区,根据主键列上的分区模式将table划分为 tablets 。每个 tablet 由至少一台 tablet server提供。理想情况下,一张table分成多个tablets分布在不同的tablet servers ,以最大化并行操作。2、Kudu目前没有在创建表之后拆分或合并 tablets 的机制。3、创建表时,必须为表提供分区模式。4、在设计表格时,使用主键,就可以将table分为以相同速率增长的 tablets 。5、您可以使用 Impala原创 2021-10-26 14:52:56 · 3986 阅读 · 0 评论 -
impala集群性能优化
1. 场景:在一次ETL过程中,将关系型数据库oracle中数据同步到kudu数据库中,开始的两个小时还算正常,集群网络IO 总和 : 150M / 秒kudu工作负荷达到:10万次插入或更新 / 秒过了两个小时后这两个指数迅速下降:集群网络IO 总和 : 10M / 秒kudu工作负荷达到:0.1万次插入或更新 / 秒并且集群磁盘IO总和也从 500M / 每秒 上升到 900M / 秒定位:Tablet Server能使用的最大内存量,有多大,设置多大,tablet Server在...原创 2021-08-09 10:00:39 · 1014 阅读 · 2 评论 -
kudu 学习知识点总结
链接:kudu 学习知识点总结(一)kudu 学习知识点总结(二)转载 2021-07-07 16:11:06 · 185 阅读 · 0 评论 -
impala + kudu一些优化心得
用了几次impala + kudu做大数据实时计算场景,这里分享经验一开始需要全量导入kudu,这时候我们先用sqoop把关系数据库数据导入临时表,再用impala从临时表导入kudu目标表由于sqoop从关系型数据直接以parquet格式导入hive会有问题,这里默认hive的表都是text格式;每次导完到临时表,需要做invalidate metadata 表操作,不然后面直接导入kudu的时候会查不到数据为什么不直接使用sqoop把数据抽到kudu表,而是要中转一下到hive因为sq原创 2021-07-07 16:00:41 · 765 阅读 · 0 评论 -
kudu的upsert是否必须列出表里的所有字段
今天,同事问我一个问题:upsert必须列出表里的所有字段吗? 昨天碰到一个问题,就是注释掉一个字段以后,upset就报错了。我的回答是:不是必须列出表里的所以字段,只列出需要的字段即可。来看一下报错信息:从报错信息,可以看出大致意思是:主键的问题。我查看了一下同事的sql,发现所以的列名都是大写(包括主键名)。涉及知识:impala 大小写不敏感,kudu 大小写敏感,Impala建表时的大小写除了表名其他的所有字段都会变成小写进入kudu。impala 会保存 kudu 的 s原创 2020-10-29 16:06:27 · 1333 阅读 · 0 评论 -
带你走进Impala query profile第三篇
在本博客系列的第3篇,我将仍然关注查询计划(Query Plan)和执行摘要(Execution Summary)。现在,让我们看看Profile的Planner Timeline和Query Timeline部分: Planner Timeline: 21.773ms - Analysis finished: 1.432ms (1.432ms) - Equivalence classes computed: 1.478ms (46.487us)...原创 2020-10-13 16:54:45 · 1204 阅读 · 4 评论 -
带你走进Impala query profile第二篇
带你走进Impala query profile第二篇在上一篇文章中(https://blog.csdn.net/Allenzyg/article/details/107105335),我们介绍了Impala query profie的概要部分,在本篇文章我们介绍Profile的查询计划(Query Plan)和执行概要(Execution Summary)部分。Profile的查询计划和执行概要如下所示: Query Runtime Profile: Query (id=2945原创 2020-10-13 16:55:00 · 781 阅读 · 0 评论 -
带你走进Impala query profile第一篇
我为什么会写Impala query profile系列文章呢?一方面:在日日顺三期项目上,在跟客户做报表时,发现执行一个sql很慢,只select count(*) 就要花费15分钟左右,如果加上逻辑处理,关联配置表,速度会更慢。从HUE配置调度,执行时间跑了2小时10分钟13秒,最后我把这个进程kill掉了,我打算一探究竟。首先,查看一下我处理的这些数据量级: [rrs-hdp-dn01:25003] > select count(*) from bms_l原创 2020-10-13 16:55:22 · 1768 阅读 · 0 评论 -
kudu由来、架构、数据存储结构、注意事项
一、kudu背景介绍Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。1.1 一方面:在KUDU之前,大数据主要以两种方式存储;(1)静态数据:以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。(2)动态数据:以 HBase、Cassandra 作为存储引擎,适用于大数据随机读原创 2020-07-02 17:03:59 · 2463 阅读 · 0 评论