- 博客(307)
- 资源 (8)
- 问答 (1)
- 收藏
- 关注
转载 HBase 读写设计实践
背景介绍本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询。原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重。本项目将其置于下游数据处理 Hadoop 分布式平...
2022-04-20 07:53:30
115
转载 ZooKeeper在HBase集群中的作用
ZooKeeper作为分布式协调组件,在大数据领域的其他分布式组件中往往扮演着重要的辅助角色,因此我们就算不单独去研究ZooKeeper,也短不了要接触它。本文就以最典型的HBase为例,简要介绍ZooKeeper为HBase提供了哪些功能。下图示出一个完整HBase集群的架构,其中包含ZK节点。HMaster、RegionServer容错当HBase集群启动成功后,会在...
2022-04-19 07:45:15
223
转载 详解 Flink 容器化环境下的 OOM Killed
在生产环境中,Flink 通常会部署在 YARN 或 k8s 等资源管理系统之上,进程会以容器化(YARN 容器或 docker 等容器)的方式运行,其资源会受到资源管理系统的严格限制。另一方面,Flink 运行在 JVM 之上,而 JVM 与容器化环境并不是特别适配,尤其 JVM 复杂且可控性较弱的内存模型,容易导致进程因使用资源超标而被 kill 掉,造成 Flink...
2022-04-18 07:49:42
300
转载 深入理解 HBase 架构
HBase 架构组件Hbase 是由三种类型的 server 组成的主从式(master-slave)架构:Zookeeper,分布式协调节点,负责维护集群状态。HBase Master管理节点,负责 Region 的分配、上下线,DDL(创建,删除 table)等操作。Region Server存储节点,负责处理数据的读写请求,客户端请求数据时直接和 Region ...
2022-04-16 10:07:08
2310
转载 Flink on K8s 在京东的持续优化实践
摘要:本文整理自京东资深技术专家付海涛在 Flink Forward Asia 2021 平台建设专场的演讲。主要内容包括:基本介绍生产实践优化改进未来规划一、基本介绍K8s 是目前业内非常流行的容器编排和管理平台,它可以非常简单高效地管理云平台中多个主机上的容器化应用。在 2017 年左右,我们实时计算是多个引擎并存的,包括 Storm、Spark Streaming ...
2022-04-12 08:00:20
388
转载 Clickhouse-MergeTree原理解析
MergeTree原理解析表引擎是ClickHouse设计实现中的一大特色。可以说,是表引擎决定了一张数据表最终的“性格”,比如数据表拥有何种特性、数据以何种形式被存储以及如何被加载。ClickHouse拥有非常庞大的表引擎体系,截至本书完成时,其共拥有合并树、外部存储、内存、文件、接口和其他6大类20多种表引擎。而在这众多的表引擎中,又属合并树(MergeTree)表引...
2022-04-11 08:01:26
1393
转载 “后红海”时代,大数据体系到底是什么?
00编者按任何一种技术都会经历从阳春白雪到下里巴人的过程,就像我们对计算机的理解从“戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面20年中,大数据技术也经历了这样的过程,从曾经高高在上的“火箭科技(rocket science)”,成为了人人普惠的技术。回首来看,大数据发展初期涌现了非常多开源和自研系统,并在同一个领域展开了相当长的一段“红海”竞争期,...
2022-04-08 12:20:27
1400
转载 Flink 对线面试官(五):2w 字详述双流 Join 3 种解决方案 + 2 种优化方案
1.前言大家好,我是老羊,本文主要是整理博主收集的 Flink 高频面试题。之后每周都会有一篇。如果本文对你有所帮助,请点个喜欢 + 在看吧。这一期的面试题主要是介绍 Flink 面试中的高频面试题,Flink 流 Join 相关内容,相信大家在面试中遇到的太多了,本节包含的主要内容如下:⭐ Join 的应用场景⭐ 为什么流式计算中提到 Join 小伙伴萌就怕呢?⭐ 带大...
2022-04-07 07:56:29
664
原创 Count-Distinct实践: 万亿级数据量任务优化方式
join实践:万亿级数据量任务优化历程单字段去重先看一个简单的sql ,pv_id 去重计数SELECT visit_type, count(DISTINCT pv_id) as pv_cntfrom exp_table where ds=20220320group by visit_type;在默认情况下,相同的visit_type 的pv_...
2022-03-25 08:23:12
2969
转载 Flink Watermark 机制及总结
作者:黄龙,腾讯 CSIG 高级工程师Flink Watermark前言Flink 水印机制,简而言之,就是在 Flink 使用 Event Time 的情况下,窗口处理事件乱序和事件延迟的一种设计方案。本文从基本的概念入手,来看下 Flink 水印机制的原理和使用方式。Flink 在流应⽤程序中三种 Time 概念Time 类型备注Processing Time事件被机...
2022-03-22 08:31:12
858
转载 爆肝 3 月,3w 字、15 章节详解 Flink 状态管理!(建议收藏)
记得点击"大数据羊说",设为星标⭐后台回复【加群】,申请加入优质大数据学习社群1.前言大家好,我是老羊。该文耗时将近 3 个月总结。集博主心得理解之大成。不多说了,本文从盘古开天辟地(...
2022-03-21 08:00:37
310
原创 join实践: 万亿级数据量任务优化历程
优化前SELECT count(*)FROM tbl_0 aJOIN tbl_1 bON a.ds = 20220310AND b.ds = 202...
2022-03-18 08:20:43
276
转载 Flink 新一代流计算和容错——阶段总结和展望
▼ 关注「Apache Flink」,获取更多技术干货▼摘要:本文整理自 Apache Flink 引擎架构师、阿里巴巴存储引擎团队负责人梅源在 Flink Forward Asia 2...
2022-03-17 08:27:15
110
转载 Flink 对线面试官(一):4 大主题、1w 字、15 个高频问题
1.前言本文主要是整理博主收集的 Flink 高频面试题。之后每周都会有一篇。其中主要划分为一下 4 大主题,首先是前两个 状态原理、时间窗口 是用于考核候选人对于 Flink 基本原理的...
2022-03-16 08:00:56
174
原创 数仓设计的几点原则
01 - 高内聚、低耦合高内聚、低耦合是软件设计的常见概念,特别是在软件模块划分中会被常常提起,需要将功能相同的内聚在一起,将职责不同的功能解耦, 比喻说常见的MVC 分层模式,每一层负责...
2022-03-15 08:24:09
1478
转载 打工人,从 JMM 透析 volatile 与 synchronized 原理
在面试、并发编程、一些开源框架中总是会遇到volatile与synchronized。synchronized如何保证并发安全?volatile语义的内存可见性指的是什么?这其...
2022-03-08 08:23:03
186
原创 闲聊面试
最近有不少同学咨询面试应该怎么准备?一般面试官会问哪些问题?对于这些比较困惑或者是感觉需要准备的东西太多了无从下手,所以这篇文章主要聊聊自己的看法,希望能够帮助建立系统性上的思考,应该怎么...
2022-03-01 08:28:27
113
转载 Flink作业问题分析和调优实践
整理:杨涛(Flink 社区志愿者)摘要:本文主要分享 Flink 的 CheckPoint 机制、反压机制及 Flink 的内存模型。对这3部分内容的熟悉是调优的前提,文章主要从以下几个...
2022-02-20 11:16:03
168
原创 Flink程序设计之道
01 - 前言软件架构的复杂性通常并不是由功能性需求来决定,而是取决于非功能性需求,例如高性能、高可用、易扩展、易运维、低成本等要求,功能性需求通常是易于实现的,但是为了满足非功能性需求需...
2022-02-18 08:29:05
930
转载 实时数仓不保障时效还玩个毛?
❝我要更快、更快更快!!!❞通过本文你可以 get 到:起因篇-为什么要做数据时效保障定义篇-数据时效保障包含哪些内容目标篇-时效性监控以及保障的目标机制篇-怎么去做数据时效监控以及保障效...
2022-02-14 12:00:16
142
转载 爆肝 1 年,18w 字 Flink SQL 手册,横空出世 !!! (建议收藏)
记得点击"大数据羊说",设为星标⭐后台回复【加群】,申请加入优质大数据学习社群重头戏这一年来,写过几篇万字文,也有一些文章可能不是很符合粉丝们的口味。不过没关系,这都在小编的计划中。截...
2022-02-12 09:32:04
401
1
转载 Redis 核心篇:唯快不破的秘密
“天下武功,无坚不摧,唯快不破!”学习一个技术,通常只接触了零散的技术点,没有在脑海里建立一个完整的知识框架和架构体系,没有系统观。这样会很吃力,而且会出现一看好像自己会,过后就忘记,一脸...
2022-02-10 13:05:37
181
转载 BIGO 使用 Flink 做 OLAP 分析及实时数仓的实践和优化
▼ 关注「Apache Flink」,获取更多技术干货▼摘要:本文整理自 BIGO Staff Engineer 邹云鹤在 Flink Forward Asia 2021 的分享。主要内...
2022-02-09 18:46:20
245
原创 AliExpress基于Flink的广告实时数仓建设
摘要:实时数仓以提供低延时数据指标为目的供业务实时决策,本文主要介绍基于Flink的广告实时数仓建设,主要包括以下内容:1. 建设背景2. 技术架构3. 数仓架构4.实时OLAP5. 实...
2022-02-08 18:09:59
399
转载 实时数仓之 Kappa 架构与 Lambda 架构(建议收藏!)
大家好,我是土哥.2021 年 1月份,给大家重点分享一下离线数仓与实时数仓的内容。今天,我们先了解一下数据仓库架构的演变过程,本文主要从五个方面进行介绍数据仓库概念离线大数据架构Lamb...
2022-02-04 22:00:49
7930
1
转载 2022年最新版 | Flink经典线上问题小盘点
2020年和2021年分别写了很多篇类似的文章,这篇文章是关于Flink生产环境中遇到的各种问题的汇总。这个版本在Flink新版本的基础上梳理了一个更加完整的版本。新增了一些Flink C...
2022-01-29 11:20:57
1779
1
转载 Apache Flink 学习0-1知识点全景图.xmind
Flink全景图实时处理框架StromStrom是第一代实时处理框架,基于流处理,数据吞吐量和延迟上效果不理想,只支持at least once和at most once,不能保证精确一次...
2022-01-26 19:00:24
214
转载 Flink on RocksDB 参数调优指南
对于需要保存超大状态(远超于内存容量)的流计算场景来说,目前 RocksDB [1] 是 Flink 平台上官方实现的唯一选择。业界也有使用 Redis 等其他服务作为状态后端的方案,但终...
2022-01-23 12:15:15
1515
转载 图解 | 搞定分布式,程序员进阶之路
编程是一门艺术,它的魅力在于创造。65 哥已经工作两年了,一直做着简单重复的编程工作,活活熬成了一个只会 CRUD 的打工 boy。65 哥:总是听大佬讲分布式分布式,什么才是分布式系统呢...
2022-01-20 21:20:08
223
转载 Kafka性能篇:为何Kafka这么"快"?
『码哥』的 Redis 系列文章有一篇讲透了 Redis 的性能优化 ——《Redis 核心篇:唯快不破的秘密》。深入地从 IO、线程、数据结构、编码等方面剖析了 Redis “快”的内部...
2022-01-19 18:58:04
230
原创 Flink端到端一致性
流式计算中,端到端表示从外部读取数据、中间处理、数据输出外部三个处理环节。在理想状态即7*24任务不出错或者异常情况下,也就是每一步处理都正常,那么就能保证最终处理输出的数据正确,但是在实...
2022-01-18 22:32:40
817
转载 3500字干货 | 大家都在谈的数据思维,到底要怎么建立?
关注公众号,回复“进群”,与3万+数据人交流作者介绍@大师兄10年数据掘金者;专注互联网营销广告领域;负责大数据商业变现和大数据业务架构工作。大家好,我是大师兄,又和大家见面了!前几天,有...
2022-01-17 23:17:16
138
转载 Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交
状态与容错在 Flink 的框架中,进行有状态的计算是 Flink 最重要的特性之一。所谓的状态,其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态,并且针对状态...
2022-01-16 12:34:17
686
转载 Clickhouse在大数据分析平台-留存分析上的应用
导语|本文实践了对于千万级别的用户,操作总数达万级别,每日几十亿操作流水的留存分析工具秒级别查询的数据构建方案。同时,除了留存分析,对于用户群分析,事件分析等也可以尝试用此方案来解决。...
2022-01-15 11:34:13
472
原创 数仓指标一致性
数仓数据质量衡量标准我们对数仓数据指标质量衡量标准通常有四个维度:正确性、完整性、时效性、一致性。正确性:正确性代表了指标的可信度,如果一个指标无法保证其正确性,那么是不能提供出去使用,因...
2022-01-14 08:01:00
1140
转载 端到端一致性,流系统Spark/Flink/Kafka/DataFlow对比总结(压箱宝具呕血之作)
前这篇文章可以说是作者压箱底儿的知识总结(之一,毕竟作者学的东西很杂 ╮( ̄▽ ̄"")╭ )了. 断断续续写了将近三个月, 耗费了大量的精力, 本来的目的本来只是想对比一下各个state ...
2022-01-08 22:24:29
646
转载 Flink 常见问题定位指南
一、问题分析概览流计算作业通常运行时间长,数据吞吐量大,且对时延较为敏感。但实际运行中,Flink作业可能因为各种原因出现吞吐量抖动、延迟高、快照失败等突发情况,甚至发生崩溃和重启,影响...
2022-01-04 23:49:24
552
原创 编码方式实现Split Distinct Aggregation功能
前言去重指标作为业务分析里面的一个重要指标,不管是在OLAP存储引擎还是计算引擎都对其实现做了大量工作,在面对不同的数据量、指标精确性要求,都有不同的实现方式,但是总体都逃脱不了硬算、两阶...
2021-02-24 17:58:00
500
原创 从需求场景下出发实操Clickhouse
背景本着以实时数仓为目标调研了几款OLAP引擎,像Clickhouse、Kylin、Druid等,在粗略了解其架构后,并且在接受各个大厂Clickhouse实践、高性能测试报告、最近业界发...
2021-02-10 00:22:02
896
5
转载 深入理解 Flink 容错机制
本文作者:Paul Lin本文链接:2019/07/28/深入理解-Flink-容错机制/版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 3.0 CN 许可协议。...
2021-02-07 08:00:00
744
Hibernate详解
2014-09-12
Hadoop 2.2运行wordcount报错
2015-12-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅