自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DataFlow范式

透过技术圈百态,体会世间冷暖,树立正确的技术观、人生观、价值观和世界观...

原创 非你想的那个 CDC,实为我这个 CDC 也

背景CDC,Change Data Capture,直译为变更数据捕获,反正能理解就对了。答案在哪里你是否在调研数据库数据实时复制方面,遇到以下问题:基于 binlog(transact...

2020-06-06 18:31:49 5 0

原创 来,换个轻松话题,深度学习

今天,笔者将和读者一起聊聊一个令人轻松愉快的话题,关于深度学习。题外话最近,笔者取关了不少微信公众号,套路太深且广告太多,难道不明白大部分人的时间都不够用吗!说什么文正香,意更深,甚荒唐...

2020-05-23 18:52:37 144 0

原创 Hadoop 3.x 时代,EC 露个脸呗!

在本文中,笔者将详细研究 HDFS EC(Erasure Coding,纠删码),讲解什么是 HDFS EC,引入 EC 的原因,用于 EC 的算法,以及在 Hadoop 社区中为 EC...

2020-05-15 19:00:00 146 0

原创 推荐升级四部曲之 CDH 手动升级,奔涌吧!

插曲在上篇文章《推荐升级四部曲之 CDH 升级重头戏,收藏了!》中,一些人因为善良而容易相信初次看到的事情,觉得升级过程那么那么那么地顺风顺水,正准备养精蓄锐,大干一场,升级换代,大数据...

2020-05-07 21:59:41 40 0

原创 推荐升级四部曲之 CDH 升级重头戏,收藏了!

特别提醒为了保证文章整体的阅读性,笔者并没有将升级过程中遇到的所有问题都记录在本篇文章中,比如 Phoenix 版本不兼容和数据迁移,Hive 集成 Atlas 等。特别需要注意,HBa...

2020-04-29 07:00:00 116 0

原创 推荐升级四部曲之 CM 升级,收藏了!

概要笔者最近在研究 CDH 大版本升级(CDH 5.16.2 -> CDH 6.3.3)的细节内容,涉及到每个组件的方方面面,确保升级过程中出现各种意外情况能够自主可控,降低未来生...

2020-04-28 07:00:00 61 0

原创 Apache NiFi 如何从入门到不放弃?

既然来了,就留下呗。笔者在之前的文章《物联网遇到流计算》中介绍过 Apache NiFi,虽比不上 StreamSets 华丽的外表,但是功能却很强大,在开源方面,NiFi 的企业级功能...

2020-04-18 09:40:17 134 0

原创 物联网遇到流计算

今天,笔者和大家聊一聊物联网(IoT),不少人都说物联网开启了万物互联时代,尤其是 5G 的逐渐普及和应用,将会构建万物互联的智能世界,实现物理世界的数...

2020-03-26 23:01:02 88 0

原创 ClickHouse 新特性 Live View 体验

今天笔者来聊一聊 ClickHouse 中的一个新特性,即 Live View 表。MA(Moving Average)提到 MA,估计大家最先想到的应...

2020-03-19 21:38:40 179 0

原创 2020 MIT 6.824 分布式系统课程

MIT 6.824,笔者在几年前刷完了一遍,过程还是相当折磨人的,但受益颇多。如今已是 2020 年了,这个特殊的一年,笔者想和大家一起拿起小板凳,准备好笔记本,再来完整地学习 MIT ...

2020-02-26 19:00:00 1095 0

原创 Spark SQL 自适应执行优化引擎

在本篇文章中,笔者将给大家带来 Spark SQL 中关于自适应执行引擎(Spark Adaptive Execution)的内容。在之前的文章中,笔者介绍过 Flink SQL,目前 ...

2020-02-22 17:13:21 218 0

原创 涅槃重生:KRPC 实现 Impala 的飞跃

据不完全统计,在生产环境中部署 Impala 集群时,大部分大数据工程师也会赠送一套 Kudu 环境,当然用不用另说。如果只部署了 Impala 而没有 Kudu,那应该是一个意外。如果...

2020-02-16 10:41:38 209 0

原创 Flink 与 Hive 的磨合期

风雨送春归,飞雪迎春到。已是悬崖百丈冰,犹有花枝俏。俏也不争春,只把春来报。待到山花烂漫时,她在丛中笑。选自《卜算子·咏梅》图片来自网络,如侵权,请联系删除有不少读者反馈,参考上篇文章《...

2020-02-07 23:29:49 230 0

原创 Hive 终于等来了 Flink

等疫情过去了,我们一起看春暖花开。Apache Spark 什么时候开始支持集成 Hive 功能?笔者相信只要使用过 Spark 的读者,应该都会说这是很久以前的事情了。那Apache...

2020-02-04 23:01:28 652 0

原创 只争朝夕,不负韶华

图片来自网络,如侵权,请联系删除人生天地之间,若白驹过隙,忽然而已。对于每个人来说,每一年总会有那么一两件让自己铭记不忘的事情,或大或小,或轻或重。对笔者来说,其中一件就是开始坚持不定期...

2020-01-25 17:53:31 249 0

原创 PostgreSQL 复制方案(管够)

流感无情,人间有情,总会有雨过天晴的时候。希望大家都能够平平安安,一切顺利。一些读者在公众号后台留言,希望笔者能对 PostgreSQL 的主备进行比较全面的介绍。正好春节前,笔者计划再...

2020-01-22 23:22:06 123 0

原创 PostgreSQL Replication 101 - 故障转移

众所周知,PostgreSQL 在国内的整体份额比不上 MySQL/MariaDB,但是号称世界上功能最为强大(没有更强,只有更强)的开源数据库之一,它在国内近几年发展势头明显。在大数据...

2020-01-15 22:14:22 135 0

原创 所见即所得式数据探索,让数据价值更美丽

在大数据生态系统里面,分析型数据库产品众多,那么如何展示和洞察其中的数据价值呢?最直观的当然是可视化方式,如果没有可视化,再好的数据分析看起来也是苍白无力的,不完美的。数据可视化也是 B...

2020-01-09 07:10:47 311 0

原创 ClickHouse - 创建漂亮的 Grafana 仪表盘

今天笔者给大家带来 Grafana 在 ClickHouse 项目中的应用。为了内容的完整性,笔者会从 Grafana 讲起,简单普及一下,毕竟业界使用度已经非常高了。GrafanaGr...

2019-12-29 18:54:46 1344 0

原创 实时流计算中躲不开的 Time 和 Watermark

最近笔者忙着发布 ClickHouse 生产环境,应用于一些业务需求,以及丰富 ClickHouse 周边的生态系统,包括集成 BI 报表、数据迁移、数据备份、监控运维、分析数据可视化平...

2019-12-26 22:20:26 55 0

原创 ClickHouse - 多卷存储扩大存储容量(生产环境必备)

笔者最近工作有点忙,加上培训较多,近期文章更新慢了一拍。不过,今天为 ClickHouse 的爱好者带来一篇非常不错的文章,部分内容来自 Altinity,以及笔者补充和整理而成。长期使...

2019-12-21 17:59:42 1443 0

原创 Apache Flink 培训系列 - 有状态计算的实验

今天笔者继续讲解 Apache Flink 培训系列课程中的实验2 - 有状态计算,带读者练习如何将每次乘车的 TaxiRide 和 TaxiFare 记录进行 join 操作。输入数据...

2019-12-17 22:49:27 92 0

原创 Delta Lake - 走进 Databricks

今天笔者带大家走进 Databricks,基于 Databricks Cloud 社区版本进行实验,并在 Databricks Notebook 中对 Delta Lake 商业版本进行...

2019-12-14 16:38:35 199 0

原创 The Apache Way - 开源项目

臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣 ...打住,打住!百家讲坛,谈古论今,今天我们不讲三国,我们来讲地球脉动...啊,停停停,爬错楼梯了,跑题啦,专业,...

2019-12-11 07:30:00 134 1

原创 Apache Flink 培训系列 - Transformation 引发的思考

无状态的 Transformation官网没有给出实战的代码,笔者为了大家可以练习,将会提供完整代码。map()在上面的实验 1 中,我们通过 GeoUtils.isInNYC 过滤出位...

2019-12-08 20:56:15 51 0

原创 Delta Lake - 增删改事务操作之大结局

在《Delta Lake - 数据写入的旅程》和《Delta Lake - 数据更新的旅程》文章中,我们已经从源码层面掌握了 Delta Lake 数据写入和数据更新的实现过程,并结合案...

2019-12-03 19:00:00 146 0

原创 HBase - 生产环境上线前真的优化过吗?

笔者今天给大家讲一下 HBase 生产环境中的实践,包括资源隔离、参数配置、性能优化等方面,部分内容参考《HBase原理与实践》(非常建议大家好好读一读,一定会大有收获),以及笔者的实战...

2019-11-29 17:42:43 122 0

原创 ClickHouse - LowCardinality 数据类型的神秘之旅

对于许多用户来说,ClickHouse 中存在很多神秘而陌生的功能,这些功能给 ClickHouse 带来了非常高的查询性能。LowCardinality 数据类型就是 ...

2019-11-26 18:30:00 563 0

原创 Delta Lake - 数据更新的旅程

在《Delta Lake - 数据写入的旅程》文章中,我们已经从源码层面掌握了 Delta Lake 数据写入的实现过程,再结合 Delta Lake 的实战,相信读者应...

2019-11-22 08:00:00 188 0

原创 Delta Lake - 数据写入的旅程

在《Delta Lake 事务日志实现的源码剖析》文章中,我们已经从源码层面大致熟悉了 Delta Lake 事务日志的实现过程。最近不少读者反馈,希望笔者从 Delta...

2019-11-16 15:39:33 456 0

原创 Delta Lake - 数据湖的数据可靠性

今天笔者将分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员,也是 Spark SQL 的最初...

2019-11-14 20:30:04 289 0

原创 Delta Lake 事务日志实现的源码剖析

笔者在之前的文章《实战深入理解 Delta Lake 事务日志》中带大家把 Delta Lake 的事务日志大致操作了一遍,并进行了具体的分析。有了之前的基础,笔者将在本...

2019-11-10 16:33:12 51 0

原创 Google Mesa - 全球复制、准实时和可扩展的数据仓库

1. 背景为了更深入地研究 Apache Doris 开源项目,今天笔者和大家聊一下 Doris 项目所使用的 Google Mesa 技术。关于该项目的详细论文资料可以...

2019-11-07 08:06:49 56 0

原创 Apache Doris 0.11.x 版本升级

背景项目计划基于 Apache Doris 构建在线实时数据查询平台,目前准生产环境部署的版本为 0.10.13-release ,来自百度内部发布的分支版本,和 Apa...

2019-11-01 08:17:13 252 0

原创 实战深入理解 Delta Lake 事务日志

笔者在介绍 Delta Lake 的上篇文章中提到过,Delta Lake 的 事务日志是非常重要的,Delta Lake 提供的多个特性都和事务日志相关,比如 ACID...

2019-10-29 08:15:00 321 0

原创 Delta Lake - 数据湖的开放标准

最近在 Spark + AI Summit 峰会上,Databricks 和 Linux 基金会共同宣布 Delta Lake 现在由 Linux 基金会托管,将成为数据...

2019-10-20 18:40:53 249 0

原创 深入理解ClickHouse-本地表和分布式表

在集群的每个机器上面建立本地表 这里需要谨记,在进行下面的操作前(使用ReplicatedMergeTree表引擎),必须保证集群配置中internal_replication=true且配置了zookeeper。 1. 先任选一台机器建个表插入数据(方便测试) CREATE TABLE IF N...

2019-09-12 09:49:17 4343 0

转载 Apache Kylin集成superset

目前Kylin已经可以与superset进行集成,详细的说明可参考kylin官方文档: [ superset ]。但是superset原生并不支持kylin,因此我们需要安装Kyligence公司提供的kylinpy工具。这是一个python的kylin客户端工具,可以通过输入命令获取相应的kyl...

2018-06-28 13:18:55 1063 2

原创 ClickHouse的显著特性

ClickHouse的显著特性1.  真正的面向列的DBMS在一个真正的面向列的DBMS中,没有任何“垃圾”存储在值中。例如,必须支持定长数值,以避免在数值旁边存储它们的长度“数字”。例如,十亿个UInt8类型的值实际上应该消耗大约1GB的未压缩磁盘空间,否则这将强烈影响CPU的使用。由于解压缩的...

2018-05-09 17:35:29 11246 0

原创 什么是ClickHouse

什么是ClickHouse?ClickHouse 是面向OLAP 的分布式列式DBMS.在“正常”的面向行的DBMS中,数据按顺序进行存储:5123456789123456789    1     Eurobasket - Greece - Bosnia and Herzegovina - exa...

2018-05-09 17:34:00 5702 0

提示
确定要删除当前文章?
取消 删除