DataGPT-CSDN博客

原创非你想的那个 CDC，实为我这个 CDC 也

背景CDC，Change Data Capture，直译为变更数据捕获，反正能理解就对了。答案在哪里你是否在调研数据库数据实时复制方面，遇到以下问题：基于 binlog（transact...

2020-06-06 18:31:49 1517

原创来，换个轻松话题，深度学习

今天，笔者将和读者一起聊聊一个令人轻松愉快的话题，关于深度学习。题外话最近，笔者取关了不少微信公众号，套路太深且广告太多，难道不明白大部分人的时间都不够用吗！说什么文正香，意更深，甚荒唐...

2020-05-23 18:52:37 1024

原创 Hadoop 3.x 时代，EC 露个脸呗！

在本文中，笔者将详细研究 HDFS EC（Erasure Coding，纠删码），讲解什么是 HDFS EC，引入 EC 的原因，用于 EC 的算法，以及在 Hadoop 社区中为 EC...

2020-05-15 19:00:00 2291 1

原创推荐升级四部曲之 CDH 手动升级，奔涌吧！

插曲在上篇文章《推荐升级四部曲之 CDH 升级重头戏，收藏了！》中，一些人因为善良而容易相信初次看到的事情，觉得升级过程那么那么那么地顺风顺水，正准备养精蓄锐，大干一场，升级换代，大数据...

2020-05-07 21:59:41 1018

原创推荐升级四部曲之 CDH 升级重头戏，收藏了！

特别提醒为了保证文章整体的阅读性，笔者并没有将升级过程中遇到的所有问题都记录在本篇文章中，比如 Phoenix 版本不兼容和数据迁移，Hive 集成 Atlas 等。特别需要注意，HBa...

2020-04-29 07:00:00 2119

原创推荐升级四部曲之 CM 升级，收藏了！

概要笔者最近在研究 CDH 大版本升级（CDH 5.16.2 -> CDH 6.3.3）的细节内容，涉及到每个组件的方方面面，确保升级过程中出现各种意外情况能够自主可控，降低未来生...

2020-04-28 07:00:00 1321

原创 Apache NiFi 如何从入门到不放弃？

既然来了，就留下呗。笔者在之前的文章《物联网遇到流计算》中介绍过 Apache NiFi，虽比不上 StreamSets 华丽的外表，但是功能却很强大，在开源方面，NiFi 的企业级功能...

2020-04-18 09:40:17 5467 1

原创物联网遇到流计算

今天，笔者和大家聊一聊物联网（IoT），不少人都说物联网开启了万物互联时代，尤其是 5G 的逐渐普及和应用，将会构建万物互联的智能世界，实现物理世界的数...

2020-03-26 23:01:02 1475

原创 ClickHouse 新特性 Live View 体验

今天笔者来聊一聊 ClickHouse 中的一个新特性，即 Live View 表。MA（Moving Average）提到 MA，估计大家最先想到的应...

2020-03-19 21:38:40 2505

原创快来，视频会议要开始了

温习下面的几张图片，感受一下今天将带来的主题氛围。笔者早在好几年前，做过一段时间的音视频流媒体技术的开发，当然大部分都是自娱自乐，没有实际的生产项目。那么多年过去了，音视频技术成熟度...

2020-03-07 23:35:30 794

原创 2020 MIT 6.824 分布式系统课程

MIT 6.824，笔者在几年前刷完了一遍，过程还是相当折磨人的，但受益颇多。如今已是 2020 年了，这个特殊的一年，笔者想和大家一起拿起小板凳，准备好笔记本，再来完整地学习 MIT ...

2020-02-26 19:00:00 18381 6

原创 Spark SQL 自适应执行优化引擎

在本篇文章中，笔者将给大家带来 Spark SQL 中关于自适应执行引擎（Spark Adaptive Execution）的内容。在之前的文章中，笔者介绍过 Flink SQL，目前 ...

2020-02-22 17:13:21 2776

原创涅槃重生：KRPC 实现 Impala 的飞跃

据不完全统计，在生产环境中部署 Impala 集群时，大部分大数据工程师也会赠送一套 Kudu 环境，当然用不用另说。如果只部署了 Impala 而没有 Kudu，那应该是一个意外。如果...

2020-02-16 10:41:38 2527

原创 Flink 与 Hive 的磨合期

风雨送春归，飞雪迎春到。已是悬崖百丈冰，犹有花枝俏。俏也不争春，只把春来报。待到山花烂漫时，她在丛中笑。选自《卜算子·咏梅》图片来自网络，如侵权，请联系删除有不少读者反馈，参考上篇文章《...

2020-02-07 23:29:49 981

原创 Hive 终于等来了 Flink

等疫情过去了，我们一起看春暖花开。Apache Spark 什么时候开始支持集成 Hive 功能？笔者相信只要使用过 Spark 的读者，应该都会说这是很久以前的事情了。那Apache...

2020-02-04 23:01:28 1890

原创只争朝夕，不负韶华

图片来自网络，如侵权，请联系删除人生天地之间，若白驹过隙，忽然而已。对于每个人来说，每一年总会有那么一两件让自己铭记不忘的事情，或大或小，或轻或重。对笔者来说，其中一件就是开始坚持不定期...

2020-01-25 17:53:31 1022

原创 PostgreSQL 复制方案（管够）

流感无情，人间有情，总会有雨过天晴的时候。希望大家都能够平平安安，一切顺利。一些读者在公众号后台留言，希望笔者能对 PostgreSQL 的主备进行比较全面的介绍。正好春节前，笔者计划再...

2020-01-22 23:22:06 2169

原创 PostgreSQL Replication 101 - 故障转移

众所周知，PostgreSQL 在国内的整体份额比不上 MySQL/MariaDB，但是号称世界上功能最为强大（没有更强，只有更强）的开源数据库之一，它在国内近几年发展势头明显。在大数据...

2020-01-15 22:14:22 1407

原创所见即所得式数据探索，让数据价值更美丽

在大数据生态系统里面，分析型数据库产品众多，那么如何展示和洞察其中的数据价值呢？最直观的当然是可视化方式，如果没有可视化，再好的数据分析看起来也是苍白无力的，不完美的。数据可视化也是 B...

2020-01-09 07:10:47 3046 1

原创打开窗，让 Flink 驻进

最近天气时好时坏，忽冷忽热，感冒的人有点多，注意防寒保暖。笔者讲解 Apache Flink 培训系列课程已经有一段时间了，一些读者反馈完成了所有实验并应用到生产实际案例，这真的非常棒，...

2020-01-04 12:48:11 454

原创 ClickHouse - 创建漂亮的 Grafana 仪表盘

今天笔者给大家带来 Grafana 在 ClickHouse 项目中的应用。为了内容的完整性，笔者会从 Grafana 讲起，简单普及一下，毕竟业界使用度已经非常高了。GrafanaGr...

2019-12-29 18:54:46 14968 4

原创实时流计算中躲不开的 Time 和 Watermark

最近笔者忙着发布 ClickHouse 生产环境，应用于一些业务需求，以及丰富 ClickHouse 周边的生态系统，包括集成 BI 报表、数据迁移、数据备份、监控运维、分析数据可视化平...

2019-12-26 22:20:26 809

原创 ClickHouse - 多卷存储扩大存储容量（生产环境必备）

笔者最近工作有点忙，加上培训较多，近期文章更新慢了一拍。不过，今天为 ClickHouse 的爱好者带来一篇非常不错的文章，部分内容来自 Altinity，以及笔者补充和整理而成。长期使...

2019-12-21 17:59:42 11798 1

原创 Apache Flink 培训系列 - 有状态计算的实验

今天笔者继续讲解 Apache Flink 培训系列课程中的实验2 - 有状态计算，带读者练习如何将每次乘车的 TaxiRide 和 TaxiFare 记录进行 join 操作。输入数据...

2019-12-17 22:49:27 827

原创 Delta Lake - 走进 Databricks

今天笔者带大家走进 Databricks，基于 Databricks Cloud 社区版本进行实验，并在 Databricks Notebook 中对 Delta Lake 商业版本进行...

2019-12-14 16:38:35 2525

原创 The Apache Way - 开源项目

臣本布衣，躬耕于南阳，苟全性命于乱世，不求闻达于诸侯。先帝不以臣 ...打住，打住！百家讲坛，谈古论今，今天我们不讲三国，我们来讲地球脉动...啊，停停停，爬错楼梯了，跑题啦，专业，...

2019-12-11 07:30:00 1388 1

原创 Apache Flink 培训系列 - Transformation 引发的思考

无状态的 Transformation官网没有给出实战的代码，笔者为了大家可以练习，将会提供完整代码。map()在上面的实验 1 中，我们通过 GeoUtils.isInNYC 过滤出位...

2019-12-08 20:56:15 695

原创 Apache Flink 培训系列 - 实打实地带你入坑

Apache Flink 是一个分布式大数据处理引擎，可对有界数据流和无界数据流进行有状态计算。可部署在各种集群环境，对各种大小的数据规模进行快速计算。笔者三言两语本次培训课程围绕 tr...

2019-12-06 07:55:56 602

原创 Delta Lake - 增删改事务操作之大结局

在《Delta Lake - 数据写入的旅程》和《Delta Lake - 数据更新的旅程》文章中，我们已经从源码层面掌握了 Delta Lake 数据写入和数据更新的实现过程，并结合案...

2019-12-03 19:00:00 1526 2

原创 HBase - 生产环境上线前真的优化过吗？

笔者今天给大家讲一下 HBase 生产环境中的实践，包括资源隔离、参数配置、性能优化等方面，部分内容参考《HBase原理与实践》（非常建议大家好好读一读，一定会大有收获），以及笔者的实战...

2019-11-29 17:42:43 1355

原创 ClickHouse - LowCardinality 数据类型的神秘之旅

对于许多用户来说，ClickHouse 中存在很多神秘而陌生的功能，这些功能给 ClickHouse 带来了非常高的查询性能。LowCardinality 数据类型就是 ...

2019-11-26 18:30:00 5364

原创 Delta Lake - 数据更新的旅程

在《Delta Lake - 数据写入的旅程》文章中，我们已经从源码层面掌握了 Delta Lake 数据写入的实现过程，再结合 Delta Lake 的实战，相信读者应...

2019-11-22 08:00:00 1652

原创 Delta Lake - 数据写入的旅程

在《Delta Lake 事务日志实现的源码剖析》文章中，我们已经从源码层面大致熟悉了 Delta Lake 事务日志的实现过程。最近不少读者反馈，希望笔者从 Delta...

2019-11-16 15:39:33 2562

原创 Delta Lake - 数据湖的数据可靠性

今天笔者将分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员，也是 Spark SQL 的最初...

2019-11-14 20:30:04 1503

原创 Delta Lake 事务日志实现的源码剖析

笔者在之前的文章《实战深入理解 Delta Lake 事务日志》中带大家把 Delta Lake 的事务日志大致操作了一遍，并进行了具体的分析。有了之前的基础，笔者将在本...

2019-11-10 16:33:12 1089

原创 Google Mesa - 全球复制、准实时和可扩展的数据仓库

1. 背景为了更深入地研究 Apache Doris 开源项目，今天笔者和大家聊一下 Doris 项目所使用的 Google Mesa 技术。关于该项目的详细论文资料可以...

2019-11-07 08:06:49 2453 1

原创 Apache Doris 0.11.x 版本升级

背景项目计划基于 Apache Doris 构建在线实时数据查询平台，目前准生产环境部署的版本为 0.10.13-release ，来自百度内部发布的分支版本，和 Apa...

2019-11-01 08:17:13 1424

原创实战深入理解 Delta Lake 事务日志

笔者在介绍 Delta Lake 的上篇文章中提到过，Delta Lake 的事务日志是非常重要的，Delta Lake 提供的多个特性都和事务日志相关，比如 ACID...

2019-10-29 08:15:00 1968

原创 Delta Lake - 数据湖的开放标准

最近在 Spark + AI Summit 峰会上，Databricks 和 Linux 基金会共同宣布 Delta Lake 现在由 Linux 基金会托管，将成为数据...

2019-10-20 18:40:53 2037

原创深入理解ClickHouse-本地表和分布式表

在集群的每个机器上面建立本地表这里需要谨记，在进行下面的操作前（使用ReplicatedMergeTree表引擎），必须保证集群配置中internal_replication=true且配置了zookeeper。1. 先任选一台机器建个表插入数据(方便测试)CREATE TABLE IF NOT EXISTS bank (\age UInt16, \job String, \marit...

2019-09-12 09:49:17 29966