kylin
nice to meet you2
这个作者很懒,什么都没留下…
展开
-
终于等到你 —— Kylin Hive Global Dict and Global Domain Dict
前几天,Kylin社区的同学告诉我,Kylin Hive Global DICT V2(分布式全局字典V2)和Global Domain Dict(全域字典)功能已经合并到Master分支,将在3.1版本发布,想要跃跃欲试的伙伴们,可以去吃螃蟹了。当时在滴滴负责Kylin引擎时,我的第一个用户提的首要需求就是要满足超高基数精准去重的需求,后来也与负责其他OLAP引擎的同事讨论,大家总结了4条OLAP引擎应该具备的最重要或最常用的4个功能,其中之一就是需要具备超高基数精准去重的能力。”我有物美价廉的估.原创 2020-06-07 23:45:37 · 599 阅读 · 0 评论 -
Kylin RealTime OLAP 如何配置自定义格式的时间列
在配置Kylin RealTime 数据源时,需要指定一个时间列,这个列默认需要是timestamp类型,实际上Kylin也支持设置为自定义格式,如yyyy-MM-dd HH:mm:ss格式。本文将分别介绍timestamp格式和自定义日期格式的配置方式。 添加数据源:Model——DataSource——Add streaming table v2: 按照步骤一步步填写,到如下图位置时...原创 2019-12-31 19:50:26 · 459 阅读 · 0 评论 -
Extract Fact Table Distinct Columns(MR) 流程和源码解析
Extract Fact Table Distinct Columns job 进行统计估算和字典编码、范围计算,具体主要做3件事情:1、HLL估算统计每个cuboid的结果条数;2、所有非Derived维度列的范围(min-max);3、所有需要字典编码的列进行字典编码;这3部分内容都会存储到HDFS上,共后续步骤使用。本文所有的讲解根据MR实现进行讲解,Spark大家对照思路进行分析。...原创 2019-11-01 19:00:50 · 1067 阅读 · 0 评论 -
Kylin RT OLAP reassign流程即重新分配replica_set 流程
一、页面操作选择需要reassign的cube:Action——AssignMent——edit——save二、源码分析2.1 代码执行流程:用户提交assignment——》StreamingV2Controller(master).reAssignStreamingCube——》StreamingV2Service.reAssignCube——》Coordinator.reAssi...原创 2019-10-24 14:26:11 · 310 阅读 · 0 评论 -
Kylin实时OLAP(RT OLAP) segment状态变化流程
ACTIVE—— IMMUTABLE ——REMOTE_PERSISTED——Ready一、Active每个segment创建的时候初始为Active状态,只有active状态的segment可以消费数据,由kylin receiver负责创建Active的segment,分布????如下两处触发:1.1、启动Receiver时启动消费服务:参见代码StreamingServer.start...原创 2019-10-23 14:43:03 · 719 阅读 · 0 评论 -
Kylin 实时OLAP如何做CheckPoint
一、新建cube第一次消费的情况:此种情况根据kylin.stream.consume.offsets.latest配置,true表示从最新的数据开始消费,false表示从最早的数据开始消费,默认为true.二、Disable cube再enable的情况Kylin在disable cube时操作:1、清空zk节点上此cube的数据(/kylin/KYLIN_PROD:kylin_meta...原创 2019-10-22 10:39:21 · 248 阅读 · 0 评论 -
Kylin实时OLAP(Real Time OlAP又称RT OLAP)查询模块源码分析
Kylin RT OLAP 查询大致逻辑:Kylin query节点根据当前传入的查询条件,定位到要查询的segment,在根据这些segment定位哪些segment从历史(hbase)查询、哪些segment从实时节点(receiver)查询,需要通过receiver查询的segment,kylin query server通过发送一个http请求给对应的receiver节点进行查询,re...原创 2019-09-29 18:38:51 · 1373 阅读 · 1 评论 -
Kylin Real Time OLAP查询数据不准确问题定位解决全过程
最近团队正在调研Kylin Real Time OLAP (RT OLAP)模块,由于此模块社区还未发布稳定版,才使用过程中多多少少会踩坑,本文主要是对《通过Kylin查询的数据与ES查询的数据对不上》的问题,整个过程的排查、定位、解决思路的全过程进行记录,希望大家在遇见类似问题时可以有提供一些参考。一、问题描述通过 Kylin RT OLAP 创建了一个cube(rt_cube_test...原创 2019-09-28 00:56:22 · 973 阅读 · 0 评论 -
多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践
由于Kylin的本身架构(广播特性)和业务特点通常不适用于单套Kylin集群的节点过多,通常大家采用拆分Kylin集群但是底层的Hbase集群和计算集群用一套的方式进行部署。本文主要根据目前咱们的实践经验对于此种场景集群配置进行分享,希望对大家有所帮助。一、部署环境:Kylin集群:当前有两套Kylin集群(kylin-cluster01,kylin-cluster02);部署...原创 2019-07-26 16:10:01 · 1046 阅读 · 0 评论 -
Kylin Cube 构建源码分析-生成job并持久化(1)
页面: 点击buildserver-base: 进入org.apache.kylin.rest.controller原创 2019-05-06 10:16:53 · 370 阅读 · 2 评论 -
Kylin 广播机制流程、源码分析-触发autoMerge segments为例
接下来看下staticListenerMap是什么时候放入的:其中CacheService注册cube相关的静态listener(cacheSyncListener)主要就是触发auto merge 相关接下来咱们看下cubeService中注册的静态listener中的onEntityChange方法:keepCubeRetention方法:mergeCubeSeg...原创 2019-05-23 12:17:20 · 328 阅读 · 0 评论 -
Kylin 广播机制流程、源码分析——Broadcaster
Kylin的广播机制在整个Kylin集群中作用非常重大,各个节点之间的数据同步均是通过广播机制进行。1、Project/Model/Cube的元数据信息变化,由Broadcaster通过api的形式广播通知其他节点;2、build完成后触发auto merge等。广播机制大致流程:1、注册事件监听器:Tomcat启动后执行相关类的afterPropertiesSet方法,注册相关...原创 2019-05-22 21:16:32 · 483 阅读 · 0 评论 -
Kylin 社区master动向 20190625
Kylin master 分支 2019-04月到06月新的功能和bug fix列表https://github.com/apache/kylin原创 2019-06-25 18:40:46 · 250 阅读 · 0 评论 -
Kylin2.0-Hbase0.98重启问题
背景:目前当HBase添加、删除节点、重启、移动rgroup或者hbase table移动region server等操作后,均需要Kylin的所有节点重启,理论上这些操作可以对上层应用透明或者只有短暂的不可用后自行恢复。但是目前咱们有8套Kylin集群均需要在HBase变动后进行Kylin重启才可以继续提供相应的服务,对上层服务影响较大,HBase的变更也会变得复杂。但是咱们提供的Kylin ...原创 2019-07-23 16:23:41 · 421 阅读 · 0 评论 -
HBase change causes Kylin restart problem (Kylin 2.0 HBase 0.98)
Background: We have some Kylin clusters (Kylin 2.0 HBase 0.98) on the line must restart all Kylin nodes after HBase delete nodes, change RSGroup, change Region server or HTable splitting operations. ...原创 2019-07-29 11:19:44 · 244 阅读 · 0 评论