自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

renq的专栏

记录思考

  • 博客(19)
  • 收藏
  • 关注

转载 美团配送数据治理实践

大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其带来后果往往是:随处可见的数据不统一,难以提升的数据质量,难以完成的模型梳理,难以保障的数据安全等等,源源不断的基础性数据问题会进一步产生,进而导致数据建设难以真正发挥其商业价值。因此,消除数据的不一致性,建立规范的数据标准,

2020-06-29 14:18:08 291

原创 Apache Kylin基本原理与常见优化

一、基本原理Apache Kylin是个开源分布式OLAP引擎。Kylin一般是作为数据仓库的应用层引擎,对业务提供SQL查询分析服务,针对数据维度多、数据基数大的场景,Kylin预计算可以保证在毫秒级时间返回分析结果,查询阶段性能十分出众。Kylin的相关人员主要分为三种角色:1. 数据用户 2. 数据仓库建模人员 3. 数据平台管理员。数据用户通过BI可视化分析工具或者编写SQL查询Kylin的数据; 数据仓库建模人员维护Kylin元数据,设计如何构建Cube,选择维度、度量;数据平台管理员提供存

2020-06-23 20:28:38 809

转载 浅谈从Google Mesa到百度PALO

最近在研究OLAP相关的技术,正好看到Google 2014年的论文《Mesa: Geo-Replicated, Near RealTime, Scalable Data Warehousing》,以及百度最近2017年开源的基于Mesa+Impala的实现系统PALO,本篇就尝试结合起来看下二者,主要是学习介绍性质的文章。1. MesaMesa是一个Google内部使用的数据仓库系统,从论文的标题可以抓住几个关键词:可实现跨DC复制的、近实时的、可扩展的。这几点算是Mesa的特色所在,同时和Mes

2020-05-18 21:31:33 667

原创 《Streaming 102》: Beam模型

写在前面TODO:时刻遵守金字塔原理!TODO:一些背景回顾、本文框架Trigger 触发器 何时窗口结果被持久存储到外部;做个比喻,触发器类似相机的快门,它定义了什么时候让计算结果留下快照。Watermark 水印 针对事件时间的输入完整性概念; TODO:用通俗的说法解释什么是水印Accumulation 累加器 对同一个窗口的多组计算结果,它们是如何累加的;例如,新结果覆盖旧结...

2020-01-14 21:11:22 730

原创 《Streaming 101》: 当我谈流计算时,我谈些什么

最近正在看Streaming Systems这本书、这本书前两章基本是从作者的博客Streaming 101和Streaming 102整理得到的。这两篇博客实在是太经典,强烈建议每个做数据处理领域的工程师都仔细学习、反复体会。Streaming 101这篇文章可以用一句话概括:“当我谈流计算时,我谈些什么”。Streaming 102可以用另一句话概括:Beam模型/DataFlow模型如何...

2019-11-06 23:53:13 532

转载 全新的 SHA-3 加密标准 —— Keccak

本文转载自开源中国,原文链接:https://www.oschina.net/translate/keccak-the-new-sha-3-encryption-standard。SHA3算法是以太坊的基础加密算法,建议读者通过此文补充SHA3加密算法的基础知识。经过多年的测试和分析,美国政府选择了Keccak算法作为SHA - 3的加密标准,现在我们分析一下它的工作原理以及使用方法。...

2018-04-03 00:48:53 19136 5

转载 SQL子查询的优化

本文作者: Eric Fu本文链接: https://ericfu.me/subquery-optimization/版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!子查询(Subquery)的优化一直以来都是 SQL 查询优化中的难点之一。关联子查询的基本执行方式类似于 Nested-Loop,但是这种执行方式的效率常常低到难以忍受。当数据量...

2020-01-06 19:04:10 839

原创 《SparkSQL内核剖析》【Aggregation篇】

这篇文章讨论Spark SQL中聚合操作相关的内容。

2019-07-07 23:43:05 1385

原创 《SparkSQL内核剖析》【Thrift Server篇】

前两天,我司开发环境Zeppelin在跑一个统计任务时,挂了,报错信息如下:TODO: 此处应有截图我推测是Thrift Server内存不足,导致通信失败了,具体原因没有深究。然而,Thrift这个看似熟悉却又陌生的词汇吸引了我的注意力。碰巧今天在学习《Spark内核剖析》第10章,Spark SQL连接Hive时,又一次提到了Thrift,于是便有了此文。什么是ThriftThrift...

2019-07-07 01:46:36 976

原创 《SparkSQL内核剖析》【物理计划篇】

一、概览物理计划是将Spark SQL生成的逻辑算子树映射成物理算子树,并将逻辑计划的信息映射到Spark Core模型中的RDD、Transformation、Action的过程。生成物理计划后,一条SQL语句就变成了可以执行的Spark任务。将逻辑计划转换成物理计划的抽象类叫做QueryPlanner,它定义了转换的框架:首先得到一系列候选物理计划、然后自底向上替换算子树节点的物理计划、最后...

2019-07-04 00:36:01 1160

转载 Spark SQL 之 Join 实现

Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的。1. SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL的总体流程,一般地,我们有两种方式使用SparkSQ...

2019-04-27 01:07:43 382

原创 从跳表到Redis有序集合

一、Spark源码系列Spark源码阅读系列停更了好久,因为一直没能达到想要的效果。写了一篇Spark物理计划生成,读下来味同嚼蜡,暂时不打算放出来了。最近偶然遇到《如何阅读一份源代码》,文中说“写代码是表达自己,读代码是在理解别人”,我想既然没有理解别人,为什么要写一篇水文欺骗自己呢?二、跳表最近开始看Kafka的书,书里面提到kafka的文件offset查找用到了“跳表”这种数据结构。跳...

2019-04-14 16:59:44 194

原创 深入理解HBase系统架构

一、写在前面最近在整理HBase相关的资料,发现国外一篇通俗易懂、深入浅出的博客介绍了HBase系统架构。本文摘录部分核心内容,欢迎有兴趣的读者点击这里查看原文。在阅读本文前,读者可以尝试回答以下几个问题:HBase数据存储分布Zookeeper的作用数据写入过程数据读取过程为什么rowkey长度不要太长HBase有哪些缓存HBase有哪些索引如果对上述问题你的回答不够肯定,...

2018-11-04 18:12:57 559

原创 《SparkSQL内核剖析》【基础篇】

一、从SQL到RDD1. 一个简单的例子样例数据 test.json{"name":"上海滩","singer":"叶丽仪","album":"香港电视剧主题歌","path":"mp3/shanghaitan.mp3&quot

2018-09-27 23:41:48 3368

转载 闭包漫谈(从抽象代数及函数式编程角度)

如果Google一下“闭包”这个词,会发现网上关于闭包的文章已经不计其数,甚至很多人将闭包看做面试JavaScript程序员的必考题(虽然闭包和JavaScript没有什么必然联系)。既然如此,我为什么还要写一篇关于闭包的文章呢?首先,虽然网上关于闭包的文章甚多,但是很少以较为形式化的角度阐述闭包,而我认为理解闭包的关键之一就是从形式化角度理解其涵义;其次,大多数文章将闭包的概念与JavaSc...

2018-08-20 00:35:02 241

原创 2018-08-08 杂谈

最近一段时间输出变少了,已经连续4个月没有在公众号写过东西了,非常惭愧。然而,最近的输入变多了,读了一本书:《必然》,作者凯文凯利;啃了一个极客时间技术专栏:《Java核心技术36讲》,作者杨晓峰。两者都是优秀的作品,表面看似不相关,却有两个重要的共同点:1. 内容丰富,不局限于表面,有深度 2. 注重逻辑,引人思考,有启发性。例如,《必然》第一章,形成——Becoming,里面提到了互联网时...

2018-08-09 01:23:43 221

翻译 机器学习的“万能模板”

2018-05-09 22:04:32 1689

原创 我的原则

最近几天在读Ray Dalio的畅销书《原则》,书里面总结了作者自己的人生经历和思考,并总结了一些原则帮助人们。读过这本书,自然感受颇深,细节不一一列举,但是,重要的道理往往是朴素的。今天,又在一篇博客中看到了类似的言论,我觉得我想写一篇置顶博客,用来勉励和警示自己,希望从现在开始,我希望这些原则能帮助自己有成效地拼搏,从生活中汲取最大限度的快乐。做一个超级现实的人,明智的选择自己的梦想并实现它。...

2018-03-05 22:42:33 298

原创 《开源应用架构》读书笔记:分布式Web系统设计原则

一、简介理解大型网站架构的考虑和权衡,同样有助于我们建立小规模网站时做出决策。设计大型Web系统,有下面几个关键原则,多个原则之间往往存在着权衡取舍关系。可用性 系统可用时间,大型电商网站,一般要求永久可用,系统不可用意味着损失大量交易和金钱。高可用性离不开冗余和备份。性能 高相应速度,低延迟,影响用户满意度可靠性 多次请求同一个数据,返回的结果应该是一致的。如果写入数据,应该保证数...

2016-09-20 00:08:22 489

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除