大数据相关
skyyws
Apache Impala Committer,目前从事OLAP方向。
展开
-
Kylin页面删除Segment
Kylin在新版本中提供了页面上删除Segment的功能,这里就简单介绍一下该功能。原创 2020-08-28 19:26:02 · 1118 阅读 · 0 评论 -
记一次Apache Kylin的慢查询排查及优化
目前业务在使用Kylin的时候反馈查询很慢,直接超时了(超时时间设置的为5min),在日志中获取了相应的SQL以及Cube之后发现:SQL扫描了不到2个月的数据,500多G大小,26亿的记录数;SQL中涉及到了4个count distinct计算(bitmap);当前集群环境如下:Kylin服务器2台,部署了2个节点,都是all;HBase集群服务器4台,每台部署了2个regionserver;Kylin版本为2.6.6;该cube设置的合并时间为7天/28天,Storage情况如下所原创 2020-08-21 13:45:33 · 839 阅读 · 0 评论 -
HUE下载提示The number of resulting rows was too big to be downloaded
目前,我们内部使用hue作为图形界面工具,通过beeswax来连接impala集群进行sql查询。用户反馈在对查询结果使用Excel进行保存之后报错,错误信息如下所示:The number of resulting rows was too big to be downloaded and the resulting file has been truncated to 2 rows跟用户确认,结果集也并不大,只有几千行。换成csv之后,下载不会报错,但是下载完成之后,打开的文件内容为空,只有一行列名原创 2020-06-01 15:11:39 · 327 阅读 · 0 评论 -
Pilosa使用入门
本文主要介绍了Pilosa的相关概念以及其使用方式。第一部分主要是参考官方文档介绍了Pilosa的一些基本概念以及与关系表的对比,第二部分着重介绍了Pilosa的使用方式,第三部分则根据Pilosa官方提供的一个SSB例子进行了一些扩展思考。原创 2019-11-11 15:07:02 · 2081 阅读 · 4 评论 -
HUE配置Impala队列提交SQL
目前,我们可以通过HUE连接到impala集群来提交SQL,进行一些数据分析和测试验证工作,非常方便,不用再额外配置beeline环境或者在java代码里面通过jdbc调用。但是,在hue上面提交SQL的时候,默认是会提交到default队列上,而线上集群往往都会根据业务设置相应的队列。因此,default上预留的资源一般不会很多,当需要跑一些比较大的SQL的时候,就需要选择相应业务的队列,否则可...原创 2019-07-17 15:20:12 · 3706 阅读 · 0 评论 -
Kylin认证方式介绍(一)
目前,apache kylin提供了多种登录认证的方式,包括预先定义的用户名和密码登录,ldap以及sso单点登录,本文主要介绍前面两种方式,sso的登录认证后面有机会再做介绍。原创 2019-07-14 15:51:13 · 2134 阅读 · 0 评论 -
Impala profile相关参数介绍(一)
Impala原生提供了每个SQL执行过程中的profile信息,profile里面有很多的参数可以供我们参考,来排查SQL执行过程中遇到的各种问题。由于目前官方没有对这些参数进行一一解释,因此本文旨在通过阅读代码的方式,来介绍一些在实际使用过程中碰到的参数,希望对大家有所帮助。首先要介绍的是如下所示的几个参数:PerReadThreadRawHdfsThroughputTotalReadT...原创 2019-06-23 18:28:34 · 2268 阅读 · 0 评论 -
使用HUE执行多条SQL
HUE是由Cloudera贡献到apache社区的一款hadoop ui工具,可以实现对hadoop的管理,连接查询系统,例如Hive,Impala等,使用起来非常方便。但是,当我们使用HUE提交SQL的时候,默认是只会执行最后一条SQL的。因此,当我们执行如下的SQL的时候,就会报错:会提示表不存在(图中的错误是Impala查询系统抛出的日志),因为HUE默认只会执行最后一条SQL。那么...原创 2019-05-24 20:32:30 · 6701 阅读 · 3 评论 -
kylin 2.3.1提示NoClassDefFoundError: net/jpountz/lz4/LZ4Exception
目前,在使用社区版的kylin-2.3.1版本时,streaming cube在第一步就报错了,通过查看MR的错误日志,发现应该是缺少了lz4相关的包导致的。相关的错误堆栈如下所示:通过错误日志分析,应该是缺少lz4相关包导致的,我们登陆kylin的部署服务器,查看kafka部署的客户端路径下,发现有lz4相关的包:因此,猜测是相关的包,在执行MR任务的时候,没有提交到yarn上。...原创 2019-05-15 16:32:59 · 2543 阅读 · 0 评论 -
Kylin独立HBase集群部署常见问题汇总
Kylin在部署的以后需要依赖Hadoop,Hive以及HBase等组件,最近公司内部在部署Kylin服务的时候遇到了不少问题。主要是HBase集群是独立部署的,与Kylin部署的HDFS不是同一个,因此踩了许多坑,这里将遇到的一些问题记录下来,希望能帮助到大家。Hadoop版本:2.7.3Hive版本:2.1.1HBase版本:1.2.6Kylin版本:2.4.0和2.6.1均有...原创 2019-03-10 15:51:17 · 3404 阅读 · 5 评论 -
Java代码连接带kerberos的Impala集群
目前impala的认证方式支持两种:用户名密码和kerberos,由于impala的表数据一般是存在HDFS上的,所以很多时候,impala集群也会开启kerberos的认证,初次新接入Impala的小伙伴,可能会对kerberos比较头疼,这里将通过一个简单的例子来告诉大家,如何在代码中访问带kerberos的impala集群。废话不多说,直接上代码:package com.netease...原创 2019-02-25 19:43:50 · 2718 阅读 · 0 评论 -
使用Impala hint加速SQL查询
在使用Impala进行SQL查询的时候,我们经常会使用join来关联多个表进行查询,获取想要的结果。对于表的数量达到千万甚至上亿的时候,不同的join方式所造成的执行速度,可能差距非常大。对于join的实现细节,感兴趣的可以参考:http://hbasefly.com/2017/03/19/sparksql-basic-join/。想直接了解如何加速SQL查询的可以直接跳过这里了。Impala...原创 2019-02-28 14:18:27 · 5031 阅读 · 0 评论 -
Impala配置DDL操作同步到所有节点
官方文档地址:https://www.cloudera.com/documentation/enterprise/5-15-x/topics/impala_sync_ddl.html由于Impala的架构设计,每一个impalad(coordinator角色)都会缓存一份自己的元数据信息。因此,当我们通过一个impalad节点执行一个DDL操作(CREATE/ALTER TABLE),再立马连...翻译 2018-12-17 19:29:15 · 2769 阅读 · 0 评论 -
Apache Kylin集成superset
Superset是一款开源的数据可视化工具,目前可以与各种数据源进行集成,包括mysql、druid等。本文主要讲解在非root用户下如何安装和配置superset,来实现对apache kylin的访问。原创 2018-03-12 17:33:51 · 4368 阅读 · 0 评论 -
Apache Kylin存储和查询的分片问题
本文主要介绍了Apache Kylin存储和查询的分片相关问题原创 2017-12-03 19:16:16 · 1743 阅读 · 1 评论 -
Kylin Cube构建过程优化
原文地址:https://kylin.apache.org/docs16/howto/howto_optimize_build.htmlKylin将一个cube的build过程分解为若干个子步骤,然后串行执行这些子步骤。这些步骤包括Hive操作,MR任务和其他类型的工作。如果每天都有许多cube进行build操作,那么肯定会办法加速这一过程。这里有一些建议可以参考,我们就按照build的顺序依次介绍翻译 2017-02-08 10:18:09 · 9150 阅读 · 0 评论 -
Kylin Cube设计优化
Cubes设计优化原文地址:http://kylin.apache.org/docs/howto/howto_optimize_cubes.html层次结构(Hierarchies)理论上对于N个维度一有需要2^N个组合。然后对于某些维度之间是不需要创建如此多的组合的。例如,你有三个维度:continent、country和city(在层次结构中,“较大的”维度总是先出现)。在你进行下钻操作的时候,翻译 2017-02-08 10:09:00 · 2167 阅读 · 0 评论 -
Kylin1.6.0 TopN实现
本文主要介绍了Kylin1.6.0新版本中TopN的实现,结合源码给出了自己的理解。如有错误,敬请指证。原创 2016-12-22 21:29:06 · 659 阅读 · 0 评论