Kylin
BigMoM1573
淡泊名利
展开
-
千亿级数仓_项目总结
文章目录项目流程技术选型数据存储数据同步计算模型结果存储kylin加速查询 项目流程 1、原始数据在mysql存储 2、使用kettle将数据在mysql同步到数据仓库(hive),同步分为全量同步+增量同步=拉链表(目标:既能够保存历史的数据,又不会有数据冗余) 3、数据存储到Hive, Hive内部结构: ODS: 存储在数据源同步过来的数据 DW:对ODS存储的数据进行过滤、填充,预计算,以及数据的拉宽。(拉宽:就是将业务上需要的字段,但是字段不在一个表中,使用拉宽(join)将这些字段原创 2020-05-25 17:55:51 · 322 阅读 · 0 评论 -
kylin_大数据数仓项目-点击流分析
文章目录用户行为日志1 日志数据格式2 数据仓库-ETL处理点击流概念点击流模型pageviews点击流模型visit3 数据入库1. 创建ODS层数据表1.1. 原始日志数据表1.2.点击流模型1.3. 点击流visit模型表 用户行为日志 1 日志数据格式 日志数据内容样例 f5dd685d-6b83-4e7d-8c37-df8797812075 222.68.172.190 - - 2018-11-01 14:34:57 "GET /images/my.jpg HTTP/1.1" 200 19939原创 2020-05-23 00:22:15 · 420 阅读 · 0 评论 -
kylin离线数仓开发
文章目录基于Kylin开发Ads层项目需求介绍业务开发全国、无商品分类维度的交易信息全国、一级商品分类维度交易信息 基于Kylin开发Ads层 项目需求介绍 因为业务需要,公司运营部门,希望随时能够自己编写SQL语句,快速获取到不同维度数据的指标,故基于Kylin OLAP分析平台,搭建快速OLAP分析平台。 业务开发 开发步骤: 1、创建 itcast_shop 项目 2、导入dw层宽表数据 3、创建数据模型 4、创建Cube立方体 5、构建立方体 6、执行查询 具体操作步骤: 指定model名称:原创 2020-05-22 23:55:50 · 454 阅读 · 0 评论 -
Kylin的Cube优化
文章目录Cuboid剪枝优化检查Cuboid数量 Cuboid剪枝优化 为什么要进行Cuboid剪枝优化 将以减少Cuboid数量为目的的Cuboid优化统称为Cuboid剪枝。在没有采取任何优化措施的情况下,Kylin会对每一种维度的组合进行预计算,每种维度的组合的预计算结果被称为Cuboid。 如果有4个维度,可能最终会有2^4 =16个Cuboid需要计算。但在实际开发中,用户的维度数量一般远远大于4个。 如果有10个维度,那么没有经过任何优化的Cube就会存在2^10 =1024个Cuboid 如原创 2020-05-22 23:44:56 · 168 阅读 · 0 评论 -
使用JDBC连接操作Kylin
使用JDBC链接kylin直接使用。不需要关注kylin中model的名称cube的名称,以及两者之间的关系 需求 通过JDBC方式,查询按照日期、区域、产品维度统计订单总额/总数量结果 开发步骤 导入驱动依赖 <dependencies> <!-- Kylin --> <dependency> <groupId>org.apache.kylin</groupId> <artifactId>.原创 2020-05-19 22:37:42 · 418 阅读 · 0 评论 -
kylin的Cube碎片管理
文章目录Cube碎片管理增量构建的问题管理Cube碎片手动触发合并Segment删除Segment自动合并1、Auto Merge Thresholds2、配置自动合并自动删除Segment Cube碎片管理 增量构建的问题 日积月累,增量构建的Cube中的Segment越来越多,该Cube的查询性能也会越来越慢,因为需要在单点的查询引擎中完成越来越多的运行时聚合。为了保持查询性能: 需要定期地将某些Segment合并在一起 或者让Cube根据Segment保留策略自动地淘汰那些不会再被查询到的陈旧Seg原创 2020-05-19 22:13:33 · 185 阅读 · 0 评论 -
Kylin增量构建
文章目录应用场景理解Cube、Cuboid与Segment的关系全量构建与增量构建全量构建增量构建全量构建和增量构建的对比增量构建Cube过程增量Cube的创建 应用场景 Kylin在每次Cube的构建都会从Hive中批量读取数据,而对于大多数业务场景来说,Hive中的数据处于不断增长的状态。为了支持Cube中的数据能够不断地得到更新,且无需重复地为已经处理过的历史数据构建Cube,因此对于 Cube引入了增量构建的功能 理解Cube、Cuboid与Segment的关系 Kylin将Cube划分为多个Seg原创 2020-05-18 00:20:13 · 619 阅读 · 1 评论 -
Kylin的工作原理
文章目录维度和度量Cube和Cuboid工作原理技术架构 Apache Kylin的工作原理本质上是 MOLAP(多维立方体分析)。 维度和度量 维度就是观察数据的角度,例如: 电商的销售数据,可以从时间的维度来观察,也可以细化从时间和地区的维度来观察 统计时,可以把维度值相同的记录聚合在一起,然后应用聚合函数做累加、平均、去重计数等聚合计算 度量就是被聚合的统计值,也是聚合运算的结果。 Cube和Cuboid 一个数据表或数据模型上的字段就它们要么是维度,要么是度量(可以被聚合)原创 2020-05-17 23:53:33 · 159 阅读 · 0 评论 -
Kylin入门实操
文章目录按照订单渠道名称统计订单总额/总数量按照日期、区域、产品维度统计订单总额/总数量 按照订单渠道名称统计订单总额/总数量 1、创建Model 指定关联表、关联条件 2、创建Cube 3、执行构建、等待构建完成 4、执行SQL查询,获取结果 select t2.channelid, t2.channelname, sum(t1.price) as total_money, sum(t1.amount) as total_amount from dw_sales t1原创 2020-05-17 23:46:07 · 173 阅读 · 0 评论 -
Kylin入门案例
文章目录测试数据表结构介绍导入测试数据按照日期统计订单总额/总数量(Hive方式)按照日期统计订单总额/总数量(Kylin方式) 测试数据表结构介绍 导入测试数据 为了方便后续学习Kylin的使用,需要准备一些测试表、测试数据。 1.Hive中创建表 2.将数据从本地文件导入到Hive 操作步骤 1、使用 beeline 连接Hive !connect jdbc:hive2://node1:10000 2、创建并切换到 itcast_dw 数据库 create database itcast_kylin原创 2020-05-17 23:40:25 · 205 阅读 · 0 评论 -
Kylin安装工作
文章目录Kylin 大数据OLAP引擎Kylin简介Kylin的诞生背景Kylin的应用场景为什么要使用KylinKylin的总体架构Kylin安装依赖环境集群规划安装Apache Hbase 1.1.1安装kylin-2.6.3-bin-hbase1x Kylin 大数据OLAP引擎 Kylin简介 Kylin的诞生背景 Kylin-中国团队研发的,是第一个真正由中国人自己主导、从零开始、自主研发、并成为Apache顶级开源项目 Hive的性能比较慢,支持SQL灵活查询,特别慢 HBase的性能快,原生原创 2020-05-17 22:49:42 · 155 阅读 · 0 评论