大数据
文章平均质量分 96
ustbxyls
这个作者很懒,什么都没留下…
展开
-
Ubuntu安装Apache Kylin安装和测试(入门)
Apache Kylin是一种OLAP查询引擎,支持PB级别数据,通过对大数据对预处理,以达到用空间换时间对目标,使得查询响应可以达到亚秒,符合业务快速查询分析对需求。Apahce支持将Hive,Kafka等作为数据源。本文的Apache Kylin安装使用过程中,将Hive最为离线数据源,并在最后做了Apache Kylin和Hive的简单对比。安装环境说明:软件 版本 ...原创 2019-10-16 14:46:52 · 9774 阅读 · 0 评论 -
Presto详细安装和测试--单节点和集群模式
参考:https://prestodb.github.io/docs/current/installation/deployment.htmlhttps://www.imooc.com/video/19187presto server下载地址:https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.22...原创 2019-10-16 15:16:07 · 9802 阅读 · 0 评论 -
可能是全网最深度的 Apache Kylin 查询剖析
本文已被 Apache Kylin 官方收录,传送门:https://kyligence.io/zh/resources/apache-kylin-query-analysis/?utm_source=wechat&utm_medium=social&utm_campaign=kylin阅读本文前,请先阅读:Apache Kylin 概览 - 简书 Apache Kyli...转载 2019-11-12 13:33:34 · 489 阅读 · 0 评论 -
Apache Kylin的精确去重Measure的使用和探索
Kylin版本:apache-kylin-3.0.0-alpha2-bin-cdh60Apache Kylin在构建Cube的时候,提供的Count Distinct功能,有近似去重和精确去重。 近似去重是基于HyperLogLog算法实现的,可以指定不同的精度。精度越高,使用的存储也越多。 精确去重是基于bitmap实现的。由于我们的DMP广告...原创 2019-11-11 17:24:46 · 4598 阅读 · 0 评论 -
关联规则之FpGrowth算法以及Spark实现
Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。 FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。我们还是以上一篇中用的数据集为例: TIDItemsT1...原创 2020-07-10 10:10:28 · 968 阅读 · 2 评论 -
企业数据湖与大数据 Lambda 架构
目录 1.Lambda架构背景介绍 2.大数据系统的关键特性 3.数据系统的本质 3.1.数据的本质 3.1.1.数据的特性:When & What 3.1.2.数据的存储:Store Everything Rawly and Immutably 3.2.查询的本质 4.Lambda架构 4.1.Batch Layer ...转载 2019-11-07 09:34:02 · 4638 阅读 · 0 评论