Kylin
DataGPT
透过技术圈百态,体会世间冷暖,树立正确的技术观、人生观、价值观和世界观
展开
-
Apache Kylin在百度地图的实践
1. 前言百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。对于Apache Kylin在实际生产环境中的应用,在国内,百度地图数据智能组是最早的一批实践者之一。Apache Kylin在2014年11月开源,当时,我们团队正需要搭建一套完整的大数据OLAP分析计算平台转载 2016-04-06 21:33:48 · 1587 阅读 · 0 评论 -
Apache Kylin高级部分之使用Hive视图
本章节我们将介绍为什么需要在Kylin创建Cube过程中使用Hive视图;而如果使用Hive视图,能够带来什么好处,解决什么样的问题;以及需要学会如何使用视图,使用视图有什么限制等等。 1. 为什么需要使用视图Kylin创建Cube的过程中使用Hive的表数据作为输入源。但是有些情况下,Hive中的表定义和数据并不能满足分析的需求,例如有些列的值需要进行处理,有些列的类型不满足需求,甚至原创 2017-01-05 20:22:44 · 8051 阅读 · 0 评论 -
Kylin 1.6.0进行Streaming Cube构建时的问题总结
在使用Kylin从Kafka来进行Streaming Cubing时,构建过程中出现如下错误: 从这个步骤的日志中简单显示:killed by admin 如果无法知道具体原因,那么我们可以从Yarn的作业中来查看: 进入到MR作业中,查看具体日志为:MAP capability required is more than thesupported max container capability原创 2017-01-20 15:04:16 · 2947 阅读 · 0 评论 -
Apache Kylin v2.0.0 beta 发布(来自官网)
Apache Kylin社区非常高兴地宣布 v2.0.0 beta package 已经可以下载并测试了。下载链接: http://kylin.apache.org/cn/download/源代码: https://github.com/apache/kylin/tree/kylin-2.0.0-beta自从v1.6.0版本发布已经2个多月了。这段时间里,整个社区协力开发完成了一系列重大的功能,希原创 2017-02-27 08:27:01 · 1511 阅读 · 0 评论 -
Zeppelin集成LDAP的部署和实践
环境信息:Zeppelin版本:0.7.0Kylin版本:1.6.0 Zeppelin部署:1. 修改$ZEPPELIN_HOME/conf/shiro.ini文件,配置Zeppelin集成LDAP:### A sample for configuring LDAP DirectoryRealmldapRealm = org.apache.zeppelin.realm.LdapGroup原创 2017-04-16 15:33:27 · 3902 阅读 · 8 评论 -
基于Hadoop开源组件部署Kylin分析平台
说明:不少读者反馈,想使用开源组件搭建Hadoop平台,然后再部署Kylin,但是遇到各种问题。这里我为读者部署一套环境,请朋友们参考一下。如果还有问题,再交流。系统环境以及各组件版本信息Linux操作系统:# cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core) JDK版本:# java -versionjava version原创 2017-03-20 21:18:46 · 4030 阅读 · 4 评论 -
Kylin v2.0.0开始参数配置规则发生变化
本篇博客主要简单介绍一下Kylin从v2.0.0版本开始,kylin.properties中的配置参数名称方式了变化。当然老的配置参数仍然生效,建议针对v2.0.0开始的新版本Kylin使用新的配置参数名称。原创 2017-08-30 14:04:33 · 5731 阅读 · 0 评论 -
Apache Kylin的Cube分析
在本篇博客中,我将给大家带来关于Kylin的Cube方面的分析,其中包括如何去查看Cube中Cuboid统计信息,Cube大小等,但是不涉及Cube方面的优化。如果对Cube优化比较感兴趣的话,可以去查阅我之前写的关于Cube优化的文章。 1. Cuboid,Cube和Segment理解什么是Cuboid?什么是Cube?什么是Segment?我们这里简单说,不搞专业术语,不然人心惶惶的原创 2017-09-10 22:43:19 · 3184 阅读 · 0 评论 -
Apache Kylin高级部分之JDBC访问方式
Kylin提供了标准的ODBC和JDBC接口,能够和传统BI工具进行很好的集成。分析师们可以用他们最熟悉的工具来享受Kylin带来的快速。本章节介绍通过Java程序调用Kylin的JDBC接口访问Kylin的Cube数据。首先我们来看一下连接Kylin的URL格式为:jdbc:kylin://:/注:如果“ssl”为true话,那么上面的端口号应该为Kylin服务的HTTPS端口号。kylin_p原创 2016-12-22 23:33:49 · 12385 阅读 · 0 评论 -
Apache Kylin的COUNT_DISTINCT精确去重实战
背景:Apache Kylin在1.5.3以及之前版本中使用精确去重只支持int类型,而目前1.5.4版本中已经支持其他数据类型的精确去重了,下面我们来验证一下对字符串进行精确去重。环境:Hadoop:2.6.0HBase:1.1.4Hive:1.2.1Kylin:1.5.4.1 准备数据:维表:region_tbl和city_tbl数据如下:region_tbl:regionid region原创 2016-10-23 22:37:00 · 7901 阅读 · 2 评论 -
清理Kylin的中间存储数据(HDFS & HBase Tables)
Kylin在创建cube过程中会在HDFS上生成中间数据。另外,当我们对cube执行purge/drop/merge时,一些HBase的表可能会保留在HBase中,而这些表不再被查询,尽管Kylin会做一些自动的垃圾回收,但是它可能不会覆盖所有方面,所以需要我们能够每隔一段时间做一些离线存储的清理工作。具体步骤如下:1. 检查哪些资源需要被清理,这个操作不会删除任何内容:${KYL原创 2016-05-02 09:21:48 · 6217 阅读 · 0 评论 -
Apache Kylin (v1.5.0) 发布,全新设计的新一代
Apache Kylin社区非常高兴宣布全新设计的新一代Apache Kylin (v1.5.0)正式发布。Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。这是一个主要的版本发布带来了更稳定,健壮及更好管理的版本,Apache Kylin社区解决了2转载 2016-03-26 11:13:32 · 963 阅读 · 0 评论 -
APACHE KYLIN简单介绍
APACHE KYLIN™ 概览Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。KYLIN是什么?- 可扩展超快OLAP引擎: Kylin是为减少在Hadoo转载 2016-03-26 16:30:52 · 2446 阅读 · 0 评论 -
Apache Kylin 大数据时代的OLAP利器
1. OLAP简介 OLAP的历史与基本概念 OLAP全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案。典型的OLAP应用场景包括销售、市场、管理等商务报表,预算决算,经济报表等等。最早的OLAP查询工具是发布于1970年的Express,然而完整的OLAP概念是在1993年由关系数据库之父EdgarF.Codd 提出,伴随而来的是著名的“twe转载 2016-03-27 11:06:50 · 1779 阅读 · 0 评论 -
Kylin的Hierarchies,Derived维度方面配置优化
Hierarchies:理论上对于N维度,我们可以进行2的N次方的维度组合。然而对于一些维度的组合来说,有时是没有必要的。例如,如果我们有三个维度:continent, country, city,在hierarchies中,最大的维度排在最前面。当使用下钻分析时,我们仅仅需要下面的三个维度的组合:group by continentgroup by continent, co原创 2016-04-30 12:57:40 · 6316 阅读 · 2 评论 -
备份Kylin的元数据
Kylin组织它所有的元数据(包括cube descriptions and instances, projects, inverted index description and instances,jobs, tables and dictionaries)作为一个层次的文件系统。然而,Kylin使用HBase来进行存储,而不是普通的文件系统。我们可以从Kylin的配置文件kylin.原创 2016-05-02 09:21:34 · 3598 阅读 · 0 评论 -
Kylin的保存查询SQL时提示kylin_metadata2_user类似的表不存在
之前在使用Kylin的Insight中的查询保存功能时,如下:但是单击Save时,一直没有反应,查看日志会出现如下的错误信息:2016-06-03 11:17:27,855 ERROR[http-bio-7070-exec-5] controller.BasicController:44 :org.apache.hadoop.hbase.TableNotFo原创 2016-06-03 11:34:33 · 3251 阅读 · 0 评论 -
Kylin的RESTful API使用
目前根据Kylin的官方文档介绍,Kylin的认证是basic authentication,加密算法是Base64。在POST的header进行用户认证:执行:curl -c cookiefile.txt -X POST -H "Authorization: Basic QURNSU46S1lMSU4="-H 'Content-Type: application/json' ht原创 2016-06-02 16:47:57 · 10216 阅读 · 13 评论 -
Apache Kylin的前世今生
1. Apache Kylin的由来在现在的大数据时代,Hadoop已经成为大数据事实上的标准规范,一大批工具陆陆续续围绕Hadoop平台来构建,用来解决不同场景下的需求。比如Hive是基于Hadoop的一个用来做企业数据仓库的工具,可以将存储在HDFS分布式文件系统上的数据文件映射为一张数据库表,并提供SQL查询功能,Hive执行引擎可以将SQL转换为MapReduce任务来进行运行,非常适合数原创 2016-07-14 22:17:07 · 3998 阅读 · 0 评论 -
Apache Kylin集成superset
目前Kylin已经可以与superset进行集成,详细的说明可参考kylin官方文档: [ superset ]。但是superset原生并不支持kylin,因此我们需要安装Kyligence公司提供的kylinpy工具。这是一个python的kylin客户端工具,可以通过输入命令获取相应的kylin信息。安装好这个工具之后,我们就可以通过superset连接kylin进行访问了。相应的安装步骤和...转载 2018-06-28 13:18:55 · 1502 阅读 · 2 评论