renqHIT-CSDN博客

转载美团配送数据治理实践

大数据时代的到来，让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产，已经成为业界的一种共识，企业也在快速探索应用场景和商业模式，并开始建设技术平台。但这里要特别强调一下，如果在大数据“拼图”中遗忘了数据治理，可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节，其带来后果往往是：随处可见的数据不统一，难以提升的数据质量，难以完成的模型梳理，难以保障的数据安全等等，源源不断的基础性数据问题会进一步产生，进而导致数据建设难以真正发挥其商业价值。因此，消除数据的不一致性，建立规范的数据标准，

2020-06-29 14:18:08 421

原创 Apache Kylin基本原理与常见优化

一、基本原理Apache Kylin是个开源分布式OLAP引擎。Kylin一般是作为数据仓库的应用层引擎，对业务提供SQL查询分析服务，针对数据维度多、数据基数大的场景，Kylin预计算可以保证在毫秒级时间返回分析结果，查询阶段性能十分出众。Kylin的相关人员主要分为三种角色：1. 数据用户 2. 数据仓库建模人员 3. 数据平台管理员。数据用户通过BI可视化分析工具或者编写SQL查询Kylin的数据；数据仓库建模人员维护Kylin元数据，设计如何构建Cube，选择维度、度量；数据平台管理员提供存

2020-06-23 20:28:38 987

转载浅谈从Google Mesa到百度PALO

最近在研究OLAP相关的技术，正好看到Google 2014年的论文《Mesa: Geo-Replicated, Near RealTime, Scalable Data Warehousing》，以及百度最近2017年开源的基于Mesa+Impala的实现系统PALO，本篇就尝试结合起来看下二者，主要是学习介绍性质的文章。1. MesaMesa是一个Google内部使用的数据仓库系统，从论文的标题可以抓住几个关键词：可实现跨DC复制的、近实时的、可扩展的。这几点算是Mesa的特色所在，同时和Mes

2020-05-18 21:31:33 804