pucheung-CSDN博客

原创 Flink实战系列

散记系列目录: 一、你应该了解的Watermark 二、Flink中延时调用设计与实现三、Flink SQL中可撤回机制解密时间系统系列目录：一、时间系统概述介绍二、Processing Time源码分析三、Event Time源码分析四、时间系统在窗口函数中的应用分析五、ProcessFunct...

2019-11-24 15:25:02 781

转载大厂 5 年实时数据开发经验总结，Flink SQL 看这篇就够了！

本文摘编于《FlinkSQL与DataStream入门、进阶与实战》（500页、70万字）作者羊艺超，目前就职于快手，国内最早一批 Flink SQL 使用者拥有从 0 到 1 使用 Flink SQL 建设、保障及治理实时数仓的丰富经验京东机械工业出版社旗舰店限时5折使用SQL实现流处理的核心技术在了解了Table\SQLAPI的使用方法以及作业运行机制之后，接下来分析SQL实现流处理...

2024-01-22 11:58:19 1504

转载你在被窝里刷手机岁月静好，一个“神秘引擎”却在远方和时间赛跑

浅友们好~我是史中，我的日常生活是开撩五湖四海的科技大牛，我会尝试各种姿势，把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友，不妨加微信（shizhongmax）。你在被窝里刷手机岁月静好，一个“神秘引擎”却在远方和时间赛跑文 | 史中“时间就是金钱，效率就是生命。”1981年，一群年轻人用红油漆把这12个字刷在三合板上，立在了刚刚成立不久的深圳特区蛇口工业园。这句闪着文艺光泽的标语，宣示了...

2022-11-02 12:03:20 484

转载 Flink Table Store：流批一体存储

分享嘉宾：李劲松阿里巴巴技术专家编辑整理：吕宴全浙江大学出品平台：DataFunTalk导读：Flink Table Store 是 Apache Flink 的一个子项目，是Flink在推动流批一体演进中存储领域上的重要一环。考虑到 Flink Table Store 仍然是一个比较新的开源项目，本次分享将会对 Flink Table Store 设计初衷和未来规划进行整体介绍。本次分享会...

2022-10-28 12:14:54 1321

转载八问数据中台：关于数据中台你想知道的都在这里！

数据中台最近特别火，各个企业都在关注如何构建自己的数据中台，利用数据中台打造数据驱动的经营能力。数据中台的概念漫天飞，作为最早为企业提供数据中台构建服务的实践者，我们希望将一些落地的经验和教训给到那些正在考虑建设数据中台的企业。我们将一些大家关注的核心问题整理出来，做成N问数据中台（先出八问），结合真实的案例，从概念和实践的层面给与解读。导读，文章万字左右，重点内容导读如下...

2022-10-21 08:36:19 207

转载流计算引擎数据一致性的本质

流计算的应用与实践在大数据领域越来越常见，其重要性不言而喻，常见的流计算引擎有 Google DataFlow、Apache Flink，Apache Kafka Streams，Apache Spark Streaming 等。流计算系统中的数据一致性一般是用消息处理语义来定义的，如某引擎声称可以提供「恰好一次（Exactly-once Processing Semantics）流处理语义，表示...

2022-10-17 18:51:22 358

转载基于数据湖技术的近实时场景实践

分享嘉宾：马汶园抖音电商实时数仓团队编辑整理：范舒阳字节跳动出品平台：DataFunTalk导读：本讲嘉宾是来自抖音电商实时数仓团队的大数据工程师马汶园，分享主题为基于数据湖技术的近实时场景实践。主要包括以下几部分内容：数据湖技术的特性近实时技术的架构电商数仓实践未来的挑战与规划01数据湖技术特性1. 数据湖概念从数据研发与应用的角度，数据湖技术具有以下特点：首先，数据湖可存储海量、低加工的原...

2022-10-11 13:51:24 559

原创 OLAP介绍

OLAP概念OLAP（On-Line Analytical Processing）即联机分析处理，通过对数据大量分析，得出分析报告，提供决策支持，其侧重数据分析能力，比喻说用户行为分析。与之对应的是OLTP（on-line transaction processing）即联机事务处理，也就是我们熟知的关系系数据处理，比喻说MySQL、Oracle等，用来记录某类业务发生的行为，其强调的是在线事务处...

2022-09-26 14:08:16 1515

转载 1400页！卷S人的《大数据PDF面试手册》

秋招开始了，目前已经有很多公司开始了招聘工作。为了帮大家节约面试时间，给大家搞来了一系列 2022 大数据面试真题和面试笔记，这里整理同步一下，希望有面试需求的朋友能有一点帮助。内容非常的全面。不管最近要不要去面试，建议大家都保存一份！！学完之后不论是厂内晋升还是跳槽涨薪都不在话下！内容如下：（大厂面试真题 - Java基础）（hadoop - Flink）面试详解（Hive - spar...

2022-09-06 13:18:46 448

转载朱凯：ClickHouse 全貌介绍与年度最令人兴奋的五大新特性

分享嘉宾：朱凯明源云大数据平台首席专家编辑整理：肖鹏 VIVO出品平台：DataFunTalk导读：都说天下武功唯快不破，ClickHouse 从2016年诞生至今就一直快字著称。ClickHouse不仅性能快，其发版速度也快得惊人。仅在2021年就发布了数千个新特性，今天主要分享的内容是对ClickHouse的简单科普以及它在2021年中发布的5个重要的特性。全文主...

2022-07-29 08:46:01 560

转载松果出行 x StarRocks：实时数仓新范式的实践之路

作者：松果出行数据中台部门松果出行成立于 2017 年，以“构建更智慧的交通基础设施，提升全球所有人的移动能力”为使命，定位于“以工业互联网为基础的交通科技公司”。松果出行创新打造“工业互联网在交通科技领域的典型样本”，构建由工业基础、落地产品、数字引擎和科技应用组成的完整产业生态。松果智能工厂（合肥）是全球首个电动两轮车智能自动化整装工厂，以严格的国标车型，满足政府监管...

2022-07-21 08:43:56 523

转载透过数字化转型再谈数据中台（一）：关于数字化转型的几个见解

备注：该系列连载6-8篇左右，InfoQ 首发。本文中不分享与涉及数字化转型概念以及方法论，这一篇是随笔记录方式，不是一篇完整的文章。(各大媒体以及网上各大网站以及很多专家都在讲述数字化转型各种方法论) 。首先给大家分享一段数字化转型具体实施的经历吧。曾经有幸加入一家头部的产业互联网做数据中台相关工作，这个数据中台经过多年三代数据人的建设，从之前的被动响应逐步缓慢转为主...

2022-07-19 09:22:56 639

转载流批一体在京东的探索与实践

摘要：本文整理自京东高级技术专家韩飞在 Flink Forward Asia 2021 流批一体专场的分享。主要内容包括：整体思考技术方案及优化落地案例未来展望Tips：点击「阅读原文」查看原文视频&PPT～01整体思考提到流批一体，不得不提传统的大数据平台 —— Lambda 架构。它能够有效地支撑离线和实时的数据开发需求，但它流和批两条数据链路割裂所导致的高开...

2022-07-12 08:50:22 230

转载月薪没到 30K 必须要背的面试八股文，我先啃为敬！

最近感慨面试难的人越来越多了，一方面是市场环境，更重要的一方面是企业要求越来越高了。对于大数据这行来说一直是缺人的，之前是做大数据的人本来就少，还得从 Java 那边扒拉合适的；现在做大数据的人是多了，但很多却只停留在框架的应用阶段，广度不足，深度不够，根本没有 trouble-shooting 的能力。所以在这段时间想跳槽加薪，或者是想转战大数据这行的朋友，就一定要好好...

2022-07-08 13:18:33 417

转载 Apache Doris和ClickHouse的深度分析

背景介绍Apache Doris是由百度贡献的开源MPP分析型数据库产品，亚秒级查询响应时间，支持实时数据分析；分布式架构简洁，易于运维，可以支持10PB以上的超大数据集；可以满足多种数据分析需求，例如固定历史报表，实时数据分析，交互式数据分析和探索式数据分析等。ClickHouse是俄罗斯的搜索公司Yandex开源的MPP架构的分析引擎，号称比事务数据库快100-100...

2022-07-07 08:45:45 684

转载 ZooKeeper数据存储与数据同步机制

ZooKeeper中，数据存储分为两部分，内存数据(ZKDatabase)与磁盘数据(事务日志 + 事务快照)。ZKDatabaseZooKeeper的数据模型是一棵树。而从使用角度看，ZooKeeper就像一个内存数据库一样，在内存数据库中，存储了整棵树的内容，包括所有的节点路径、节点数据以及ACL信息等。ZKDatabaseZKDatabase是ZooKeeper的内...

2022-07-05 08:57:03 1700

转载快手实时数仓保障体系研发实践

01业务特点及实时数仓保障痛点快手最大的业务特点就是数据量大。每天入口流量为万亿级别。对于这么大的流量入口，需要做合理的模型设计，防止重复读取的过度消耗。另外还要在数据源读取和标准化过程中，极致压榨性能保障入口流量的稳定执行。第二个特点是诉求多样化。快手业务的需求包括活动大屏的场景、2B 和 2C 的业务应用、内部核心看板以及搜索实时的支撑，不同的场景对于保障的要求都不一...

2022-06-27 08:37:24 233

转载 Apache Calcite介绍

Apache Calcite 是一种提供了标准的 SQL 语言、多种查询优化和连接各种数据源基础框架，可以让用户轻松的接入各种数据，并实现使用SQL查询。此外，Calcite 还提供了 OLAP 和流处理的查询引擎。Calcite是什么Calcite 之前的名称叫做 optiq ，optiq 起初在 Hive 项目中，为 Hive 提供基于成本模型的优化，即 CBO（Co...

2022-06-22 08:49:50 7203

转载 Streaming Data Warehouse 存储：需求与架构

作者｜Jingsong Leejingsonglee0@gmail.com一、数仓中的计算在计算机领域，数据仓库（DW 或 DWH），是一个用于报告和数据分析的系统，被认为是商业智能的一个核心组成部分。它将当前和历史数据存储在一个地方，为整个企业的工作人员创建分析报告。[1]典型的基于提取、转换、加载（ETL）的数据仓库使用 ODS 层、DWD 层和 DWS 层来容纳...

2022-06-20 18:15:15 278

转载实时数据湖在字节跳动的实践

分享嘉宾：杨诗旻字节跳动数据平台编辑整理：田长远出品平台：DataFunTalk导读：今天分享的主题是实时数据湖在字节跳动的实践，将围绕下面四点展开：对实时数据湖的解读在落地实时数据湖的过程中遇到的一些挑战和应对方式结合场景介绍实时数据湖在字节内部的一些实践案例数据湖发展的一些规划01对实时数据湖的解读数据湖的概念是比较宽泛的，不同的人可能有着不同的解读。这个名词诞生以...

2022-06-16 08:46:52 401

原创 Flink中: 你的Function是如何被执行的

在Flink编程中，不管你是使用DataStream api还是 Table/SQL ，接触最多的就是UserFunction ，比喻说MapFunction、ScalarFunction, 在这些Function 里面可以自定义用户的业务处理逻辑，但是这些Function是如何被调用的呢？本文主要介绍Function 被调用的流程以及对应的方法如何被调用的。核心调用逻...

2022-06-13 08:44:01 382

原创知根知底: Flink Kafka-Producer详解

在实时数仓分层中，Kafka是一种比较常见的中间存储层，而在分布式计算中由于硬件、软件等异常导致的任务重启是一种正常的现象，通过之前的Kafka-Consumer分析得知，offset 是跟随着checkpoint周期性的保存，那么消息是有可能被重复消费的，而Kafka 作为输出端并不属于整个Flink任务状态的一部分，重复被消费的消息会重复的输出，因此为了保证输出到K...

2022-05-31 08:33:03 3137

转载 Flink 基于Log 的增量Checkpoint

作者｜梅源（Yuan Mei）& Roman Khachatryan流处理系统最重要的特性是端到端的延迟，端到端延迟是指开始处理输入数据到输出该数据产生的结果所需的时间。Flink，作为流式计算的标杆，其端到端延迟包括容错的快慢主要取决于检查点机制（Checkpointing），所以如何将 Checkpoint 做得高效稳定是 Flink 流计算的首要任务。我们...

2022-05-28 12:45:15 989

转载 HBase写入全流程剖析

昨日要闻数据内功修炼手册。。。HBase采用LSM树架构，天生适用于写多读少的应用场景。在真实生产环境中，也正是因为HBase集群出色的写入能力，才能支持当下很多数据激增的业务。需要说明的是，HBase服务端并没有提供update、delete接口，HBase中对数据的更新、删除操作在服务器端也认为是写入操作，不同的是，更新操作会写入一个最新版本数据，删除操作会写入一条标...

2022-05-25 00:02:29 2201

转载数据内功修炼手册

大家好，我是paul。最近天气是越来越热，互联网却是越来越寒。这个夏季降温解暑的最好方式怕是刷刷不断裁员的爆料，感受下一丝丝寒意。可能上午还在优化代码，下午就被公司优化了，明明还想多修几个学分，公司却说是兄弟就给我提前毕业。不过焦虑归焦虑，对抗焦虑最好的办法，还是：学习！学习！学习！今天给大家精心推荐几个优质的公众号，他们都是数据领域的资深作者，每一篇推文都值得你点开 ...

2022-05-24 08:39:42 232

转载基于Clickhouse 的用户圈选实践

1. 背景在伴鱼，我们努力了解我们的用户，旨在为用户提供更好的服务。APP 内容推荐，需要根据用户特征来决定推送内容；促销活动，需要针对不同的用户群体设计不同的活动方案；线上产品售卖，也需要了解用户喜好，才能更好地把产品卖给用户。为此，我们搭建了用户画像平台。本文将首先探讨平台的功能需求、标签体系定位，随后介绍平台的架构和具体功能实现。2. 功能用户画像平台把重点放在了分...

2022-05-23 08:45:33 1459

转载马蜂窝×StarRocks：OLAP 架构升级，开启极速统一新旅程

马蜂窝旅游网是中国领先的旅行玩乐平台，创立于 2006 年，从 2010 年正式开始公司化运营，十年来在旅游 UGC 内容领域累积了大量内容。马蜂窝是旅游社交网站，是数据趋动平台，也是新型旅游电商，提供全球 6 万个旅游目的地的交通、酒店、景点、餐饮、购物、当地玩乐等信息内容和产品预订服务。马蜂窝大数据部门从 2021 年开始引入 StarRocks，OLAP 场景的查询...

2022-05-20 09:08:44 397

转载 ClickHouse分布式JOIN

来源：https://zhuanlan.zhihu.com/p/377506070JOIN操作是OLAP场景无法绕开的，且使用广泛的操作。对ClickHouse而言，非常有必要对分布式JOIN实现作深入研究。在介绍分布式JOIN之前，我们看看ClickHouse 单机JOIN是如何实现的。1. ClickHouse单机JOIN实现ClickHouse 单机JOIN操作默...

2022-05-18 09:42:06 542

转载实时数仓：Iceberg

背景互联网技术高速发展的背景下，数据已经成为各大公司的最宝贵资源之一。大数据领域经过近十年的高速发展，无论是离线计算还是实时计算、不管是数据仓库还是数据中台都已深入各大公司的各个业务。在复杂业务的背景下，迫切需要一套高效的大数据架构。以数据仓库为例，经过了几次架构升级。其中，首先诞生的一个比较成熟的流批一体架构就是 Lambda 架构，然后就是升级版的 Kappa 架构。...

2022-05-16 09:09:45 832

转载从B+树到LSM树，及LSM树在HBase中的应用

前言在有代表性的关系型数据库如MySQL、SQL Server、Oracle中，数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cassandra、LevelDB、RocksDB中，则是使用日志结构合并树（Log-structured Merge Tree，LSM Tree）来组织数据。本文先由B+树来引出对LSM树的...

2022-05-14 13:46:00 312

转载 Apache Flink 误用之痛

1. 项目开始在开始开发前，我们需要选择正确的切入方式，以下几种往往是最糟糕的开始：a)从一个具有挑战性的用例开始（端对端的Exactly-once、大状态、复杂的业务逻辑、强实时SLA的组合） b) 之前没有流处理经验 c) 不对团队做相关的培训 d) 不利用社区在开发的过程中，其实要认认真真的来规划我们的切入点，首先，要从...

2022-05-12 09:18:32 139

转载《Flink 对线面试官》3w 字、6 大主题、30 图、36 个高频问题！（建议收藏）

1.前言兄弟们，在 18w 字《Flink SQL 成神之路》之后，我的另一篇《Flink 对线面试官》申请出战！《Flink 对线面试官》主要划分为一下 6 大主题，36 个 Flink 高频面试题：⭐ 状态原理⭐ 时间窗口⭐ 编程技巧⭐ 实战经验⭐ 实时数仓⭐ 前沿探索内容较多，并且比较详细，建议获取 PDF 资料，关注下方公众号，在公众号后台添加博主微信后，私聊博主...

2022-05-10 08:06:25 595

转载 Flink 在爱奇艺广告业务的实践

一、业务场景实时数据在广告业务的使用场景主要可以分为四个方面：数据大屏：包括曝光、点击、收入等核心指标的展示，以及故障率等监控指标；异常监测：因为广告投放的链路比较⻓，所以如果链路上发生任何波动的话，都会对整体的投放效果产生影响。除此之外，各个团队在上线过程中是否会对整体投放产生影响，都是通过异常监测系统能够观测到的。我们还能够观测业务指标走势是否合理，比如在库存正常的情...

2022-05-09 07:49:45 213

转载云计算时代，你还不会 Docker ？一万字总结（建议收藏）

记得点击"小林玩大数据,设为星标⭐前言大家好，我是林哥！2021年以来，云原生、云计算时代的趋势已经在渐渐的铺开了，这些都与 Dokcer + K8S 两个技术的盛行分不开。今天。林哥给大家总结一波 Docker 学习笔记！其中包含以下几个方面：本文概览1.什么是 Docker？在给大家介绍什么是 Docker 前，先给大家讲讲为什么会有 docker 出现？为什么会...

2022-05-08 09:21:09 237

转载快手基于 Flink 构建实时数仓场景化实践

一、快手实时计算场景快手业务中的实时计算场景主要分为四块：公司级别的核心数据：包括公司经营大盘，实时核心日报，以及移动版数据。相当于团队会有公司的大盘指标，以及各个业务线，比如视频相关、直播相关，都会有一个核心的实时看板；大型活动实时指标：其中最核心的内容是实时大屏。例如快手的春晚活动，我们会有一个总体的大屏去看总体活动现状。一个大型的活动会分为 N 个不同的模块，我们对...

2022-04-30 10:01:10 1779

原创知根知底：Flink-KafkaConsumer 详解

Flink-Kafka Connector 是连接kafka 的连接器，负责对接kafka 的读写，本篇主要介绍kafka consumer 的执行流程与核心设计。逻辑执行流程分配当前task消费的partition与起始的offset : 根据从状态中恢复的数据与客户端指定的消费模式，采取的方式是状态中offset优先，即从状态中能够找到对应的offset 就使...

2022-04-28 07:56:53 4945

转载基于 Flink SQL 构建流批一体的 ETL 数据集成

数据仓库与数据集成数据仓库是一个集成的（Integrated），面向主题的（Subject-Oriented），随时间变化的（Time-Variant），不可修改的（Nonvolatile）数据集合，用于支持管理决策。这是数据仓库之父 Bill Inmon 在 1990年提出的数据仓库概念。该概念里最重要的一点就是“集成的”，其余特性都是一些方法论的东西。因为数据仓库首...

2022-04-26 08:11:21 378

转载 HBase 读写优化

HBase 读优化HBase客户端优化和大多数系统一样，客户端作为业务读写的入口，姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法，这里一般需要关注四个问题：1. scan缓存是否设置合理？优化原理：在解释这个问题之前，首先需要解释什么是scan缓存，通常来讲一次scan会返回大量数据，因此客户端发起一次scan请求，实际并不会一次就将所有数据加载...

2022-04-24 07:58:00 432

原创 HBase RowKey 设计与查询实践

RowKey 设计HBase 作为一款分布式的NoSQL数据库，数据的分布根据rowKey range方式来划分，每个Region 存储了一定范围rowKey 的数据，数据的读写通常情况下需要指定rowKey 来定位到具体的Region 与 RegionServer，如果大量的请求根据rowKey都打到同一个Region或者很少的Region上，那么这些Region就...

2022-04-23 08:16:20 761

转载什么是 Flink State Evolution?

State Evolution 是 Apache Flink （下简称 Flink）1.7 版本引入的新特性，目的是为用户提供迭代或修改 State 的方法，以适应长期运行的作业的版本迭代需求，比如迁移 State 到不同的序列化框架，或者对 State 的数据结构进行改变，甚至直接对 State 的内容进行修改。该特性对于企业级应用来说有着重大的意义。作为 Statef...

2022-04-21 07:41:08 490

Hibernate详解

solr与tomcat整合

tika.jar包

nutch工具包

Struts2.2.3

Jquery1.10.3

Apache tomcat

Hadoop 2.2运行wordcount报错