- 博客(2216)
- 资源 (69)
- 问答 (17)
- 收藏
- 关注
转载 苏宁超6亿会员如何做到秒级用户画像查询?
双 11”到了,假设需要发放 1000 万张家电类优惠券,那我们首先需要根据标签筛选出符合条件的人群,人数大约为 1000 万左右,然后对选择的人群进行画像分析,看是否符合预期的特征。如果人群符合特征,系统将一键生成进行营销的人群包(userid 列表),自动化发布和营销。图 1:业务流程架构图如下:图 4:标签架构ClickHouse Manager 是我们自研的 ClickHouse 管理平台,负责集群管理、元数据管理和节点负载协调。
2023-09-26 08:46:25
32
翻译 Spark 入门 Shuffle 操作
Spark 中的某些操作会触发一个称为shuffle的事件。shuffle是 Spark 重新分配数据的一种机制,以便对不同分区上的数据进行分组。这通常跨 Executors 和机器进行数据复制,使得shuffle成为一项复杂而代价比较大的操作。
2023-09-25 08:01:40
19
转载 Apache Linkis 在理想汽车的应用实践
未来,我们会继续基于Links进行内部大数据平台的优化, 主要如下, 后续也希望把相关进展分享、回馈给社区。
2023-09-20 08:42:20
31
翻译 Spark 入门 共享变量
通常情况下,传递给 Spark 操作(例如 map 或 reduce)的函数是在远程集群节点上执行的。函数中使用的变量,在多个节点上执行时是同一变量的多个副本。这些变量被拷贝到每台机器上,并且在远程机器上对变量的更新不会回传给 Driver。跨任务支持通用的,可读写的共享变量效率是非常低的。所以,Spark 提供了两种类型的共享变量:广播变量(broadcast variables)和累加器(accumulators)。
2023-09-13 07:58:21
30
转载 Spark Streaming在小米数据流应用中的Checkpoint相关问题
我们都希望 Spark Streaming 作业能够长时间运行下去,但是总会有一些意想不到的异常会导致作业退出(比如依赖的服务出现了异常),或者我们需要对作业进行升级重启,这个时候就需要用到 Checkpoint 了。使用 Spark Streaming 的同学应该对 Checkpoint 的用法有了一定的了解,我们这里只简单介绍下 Checkpoint 的原理。Spark Streaming 有两类 Checkpoint,一类是 Metadata Checkpoint,来加强作业的容错性;
2023-09-12 21:36:21
33
转载 B站埋点分析平台的构建之路
B站内各业务产品迭代离不开各种数据决策,而依托于埋点的用户行为数据在其中起到了 关键作用。埋点也是算法推荐、渠道投放、业务决策的重要数据来源,鉴于此,如何规范埋点设计,高效采集,让业务团队快速直观分析成为了推进业务发展的重要一环。本文主要分享B站过去在埋点规范设计、埋点分析应用的经验,我们相信数据只有流动起来,才能发挥它的价值,The data must flow!
2023-09-12 08:21:59
40
转载 携程如何基于 Spark Streaming 构建实时计算平台
随着互联网技术的迅速发展,用户对于数据处理的时效性、准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战。自2015年携程实时计算平台搭建以来,经过两年多不断的技术演进,目前实时集群规模已达上百台,平台涵盖各个SBU与公共部门数百个实时应用,全年JStorm集群稳定性达到100%。
2023-09-10 17:36:14
32
原创 Spark Streaming 如何使用 MapWithState 实现有状态应用
有时候可能需要依赖流中前几个批次中的元素来计算当前批次的结果。例如,计算流中所有元素的和,计算当前元素值与之前元素的差值。这种运算会在遍历整个流的期间不断更新计算状态。在 Spark Streaming 中提供了和 MapWithState 函数来实现。本文主要介绍如何使用 MapWithState 函数实现有状态应用。
2023-09-10 09:05:55
33
原创 Spark Streaming 如何使用 UpdateStateByKey 实现有状态应用
有时候可能需要依赖流中前几个批次中的元素来计算当前批次的结果。例如,计算流中所有元素的和,计算当前元素值与之前元素的差值。这种运算会在遍历整个流的期间不断更新计算状态。在 Spark Streaming 中提供了 updateStateByKey 和 MapWithState 函数来实现。本文主要介绍如何使用 updateStateByKey 函数实现有状态应用。
2023-09-09 15:44:59
31
翻译 Spark Streaming 2.2.0 与 Kafka 0.8 整合
在这篇文章我们主要讲解一下如何配置 Spark Streaming 来接收 Kafka 的数据,一共有两种方法:一种是使用 Receivers 和 Kafka 高级API的旧方法。另一种是不使用 Receivers 的新方法(在 Spark 1.3 中引入)
2023-09-05 08:10:58
35
转载 一文彻底理解 Apache Hudi 的清理服务
Apache Hudi 提供了 MVCC 并发模型,保证写入端和读取端之间快照级别隔离。在本篇博客中我们将介绍如何配置来管理多个文件版本,此外还将讨论用户可使用的清理机制,以了解如何维护所需数量的旧文件版本,以使长时间运行的读取端不会失败。
2023-08-28 08:47:38
57
原创 数据湖学习笔记
基于 Lakehouse 架构实现湖内建仓实践经验 Lakehouse架构指南 腾讯 数据湖知识体系解析 一个理想的数据湖应具备哪些功能? HDFS廉颇老矣?基于对象存储的数据湖构建新思路 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体 网易严选数据湖建设实践 爱奇艺数据湖实战 字节跳动基于数据湖技术的近实时场景实践 数据湖在快手的生产实践 Apache Hudi 典型应用场景知多少? Apache Hudi 在腾讯的落地与应用 基于 Apache Hudi 构建数据
2023-08-28 08:02:12
49
转载 基于 Lakehouse 架构实现湖内建仓实践经验
第一个阶段是数据库不管是从业务的角度还是从技术栈角度,大家对数据库都是最熟的。第二阶段是数据仓库当数据库的整体能力达不到我们的存储要求之后,就出现了数据仓库。数据仓库定位也是偏OLAP。它把数据的存储的能力通过分布式的方式去加大,计算能力也相应增加了上去。在有些特性和用法上是非常相似的。第三阶段是数据湖数据湖在存储规模和计算能力上进一步加大,整个集群规模可以上万台,整体的能力会有更大的提升,同时扩容更加平滑。另外它增加了很多数据库和数仓不具备的能力,比如实时计算、机器学习。
2023-08-27 12:59:43
44
原创 2023年08数据月报
基于 Flink & Paimon 实现 Streaming Warehouse 数据一致性管理 性能全面飙升!StarRocks 在贝壳找房的极速统一实践 Flowable工作流引擎的科普与实践 万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践 Impala在数据湖中的性能优化 干货 | 详述 Elasticsearch 向量检索发展史 快速上手使用 Paimon MySQL CDC 芒果 TV 基于 Flink 的实时数仓建设实践 数据序列化工
2023-08-27 07:59:23
103
转载 一文彻底弄懂Apache Hudi不同表类型
在深入研究 COW 和 MOR 之前,让我们先了解一下 Hudi 中使用的一些术语,以便更好地理解以下部分。
2023-08-25 08:17:28
40
转载 基于 Apache Hudi 构建数据湖的典型应用场景介绍
传统大数据由于不支持事务等痛点问题,造成T+1时延,虽然能够基于Flink流式计算实现少量数据在简单场景的秒级数据处理能力,但依然缺乏海量复杂场景的实时更新、事务支持能力。现在基于华为云FusionInsight MRS的Hudi可以构建分钟级数据处理方案,实现较大数据量的复杂计算实时处理能力,大大提升数据时效性,让数据价值近在眼前。
2023-08-25 07:25:30
55
转载 Apache Hudi 在腾讯的落地与应用
如上图所示,以最简单的覆盖逻辑为例,当读到 BaseFile 中的主键是 key1 的 Record 时,发现 key1 在 Map 中已经存在并且对应的 Record 有 BCD 三列的值,则更新 BaseFile 中的 BCD 列,得到新的 Record(key1,b0_new,c0_new,d0_new,e0),注意 E 列没有被更新,所以保持原来的值 e0。同时,这套方案的扩展性也更加好。在传统的Hive数仓中想保证实时是非常困难的,尤其是文件更新,湖表实时写入更新,基本不可能实现。
2023-08-23 08:32:22
155
转载 Apache Hudi 典型应用场景知多少?
此外,Hudi 没有外部依赖项(例如专用于实时分析的专用HBase群集),因此可以在不增加运营成本的情况下,对更实时的数据进行更快的分析。在这种情况下,保证正确性的唯一方法是每小时重复处理最后几个小时的数据,这会严重损害整个生态系统的效率。Hudi可以很好的解决上述问题,其通过记录粒度(而非文件夹或分区)来消费上游Hudi表 HU中的新数据,下游的Hudi表 HD应用处理逻辑并更新/协调延迟数据,这里 HU和 HD可以以更频繁的时间(例如15分钟)连续进行调度,并在 HD上提供30分钟的端到端延迟。
2023-08-23 07:36:06
34
原创 Hadoop 2.10.1 安装与启动
可以直接从官网上下载 https://archive.apache.org/dist/hadoop/common/ 你需要的版本,在这我们使用的是 2.10.1 版本 hadoop-2.10.1.tar.gz。Hadoop 早期版本采用一个配置文件hadoop-site.xml来配置Common,HDFS和MapReduce组件。从0.20.0版本开始该文件以分为三,各对应一个组件。如果在 mapred-site.xml 中设置数据处理框架为 yarn,同时也需要配置 yarn-site.xml 文件。
2023-08-22 08:18:58
56
原创 Hadoop Initialization failed for Block pool <registering>
两者的 clusterID 不一致导致最终 datanode 没有启动。这个问题一般是由于两次或两次以上的格式化 NameNode 造成的。目录,查看 VERSION 文件,可以发现 datanode 的 clusterID 为。从上面异常中可以发现 namenode 的 clusterID 为。从上面可以看到我们的 dataNode 已经跑起来了。,而 datanode 的 clusterID 为。重启 Hadoop 即可。
2023-08-22 08:16:18
28
转载 Hudi 基本概念
Apache Hudi(发音为“Hudi”)在DFS的数据集上提供以下流原语在本节中,我们将讨论重要的概念和术语,这些概念和术语有助于理解并有效使用这些原语。
2023-08-20 16:59:52
36
转载 Apache Hudi:新一代流式数据湖平台
早在 2016 年,我们就提出了一个大胆的新愿景 [1],通过一个新的“增量”数据处理技术栈(结合现有的批处理和流式处理堆栈)重新构想批处理。虽然流处理管道进行面向行的处理,提供秒级处理延迟,但增量管道将对数据湖中的列数据应用相同的原则,高效的数据处理,及相对批处理数量级的改进,同时存储 / 计算可高度扩展。这个新的技术栈将能够毫不费力地支持批量再加工 / 回填的常规处理。Apache Hudi 是作为这一愿景的体现而建立的,它植根于 Uber 面临的真实、困难的问题 [2],后来在开源社区中独树一帜。总之
2023-08-20 08:29:16
48
转载 Lakehouse架构指南
数据湖是一种存储系统,具有底层数据湖文件格式[6]及其不同的数据湖表格式[7],可存储大量非结构化和半结构化数据,并按原样存储,但没有特定用途。广泛的技术和非技术数据消费者可以访问该数据以进行分析用例和机器学习模型,包括商业智能和报告。数据湖还消除了通过传统 BI 工具转换数据需要使用专有格式的需要。将数据加载到数据湖中,数据团队花费时间构建和维护复杂 ETL 管道的旧瓶颈消失了,并且跳过了等待数周的数据访问请求。
2023-08-18 08:40:30
28
转载 腾讯 数据湖知识体系解析
数据湖是一种存储系统,底层包括不同的文件格式及湖表格式,可存储大量非结构化和半结构化的原始数据。数据消费者可以访问该数据进行数据分析,包括 BI、报表和机器学习模型训练。有了数据湖,数据变得越来越可用。
2023-08-18 07:54:18
59
转载 一个理想的数据湖应具备哪些功能?
从数据库到数据仓库,最后到数据湖[1],随着数据量和数据源的增加,数据格局正在迅速变化。数据湖市场预计增长近 30%[2],将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会[3]来看,数据湖架构[4]显然是数据管理和治理的未来。由于 Databricks[5] 发布了 Delta 2.0,该趋势可能会增长,该平台的所有 API 都将是开源的。此外Snowflakes[6] 在其峰会上宣布了一些改变游戏规则的功能,使数据湖成为该行业的支柱。
2023-08-17 07:46:53
36
转载 网易 实时数据仓库的发展、架构和趋势
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。
2023-08-16 15:43:36
25
转载 HDFS廉颇老矣?基于对象存储的数据湖构建新思路
我们经常会被问到一个企业大数据架构的问题:随着企业收集 / 产生的数据越来越多,如何设计一套高效廉价的大数据架构,在尽可能多保留所有原始数据内容的同时还可以支持“无缝接入”的新的分析算法。本文所要介绍的数据湖解决方案可能是解决这个难题的一种新思路。
2023-08-15 07:27:01
46
转载 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体
我们身处一个大数据时代,企业的数据量爆炸式增长。如何应对海量数据存储和处理的挑战,建设好数据平台,对一个企业来说是很关键的问题。从数据仓库、数据湖,到现在的湖仓一体,业界建设数据平台的新方法和新技术层出不穷。理解这些方法和技术背后隐藏的演进脉路、关键问题、核心技术原理,可以帮助企业更好地建设数据平台。这也是百度智能云推出数据湖系列内容的初衷。本系列文章将包含几个部分:本篇将作为数据湖整个系列的开篇,为大家介绍数据平台技术的历史和发展过程中遇到的一些关键技术问题。
2023-08-11 08:19:15
262
转载 Apache Iceberg:Netflix 数据仓库的基石
Iceberg 主要设计思想:记录表在所有时间的所有文件,和 Delta Lake 或 Apache Hudi 一样,支持 snapshot,其是表在某个时刻的完整文件列表。带来的问题是如果一张表有很多分区,我们需要使用 HMS(Hive MetaStore)来记录这些分区,同时底层的文件系统(比如 HDFS)仍然需要在每个分区里面记录这些分区数据。在 Netflix,他们希望有更智能的处理引擎,比如有 CBO 优化,更好的 Join 实现,缓存结果集以及物化视图等功能。原生支持云对象存储,支持多并发写。
2023-08-01 08:48:19
32
原创 2023年07数据月报
天穹SuperSQL如何应对数据湖场景中的复杂多维分析 哔哩哔哩数据服务中台建设实践 抖音集团面向多样应用场景的数据准备实践 实用型因果推断方法在小红书的实践 基于Lakehouse架构实现湖内建仓实践经验 StreamPark 在顺网科技的大规模生产实践 如何使用calcite构建SQL并执行查询 Flink CDC & MongoDB 联合实时数仓的探索实践 Apache Doris数据湖联邦分析特性揭秘 实战总结|记一次消息队列堆积的问题排查 使用 Apache Se
2023-08-01 07:16:05
89
大型网站技术核心原理与案例分析
2015-12-25
Android应用开发揭秘
2015-12-17
Android开发秘籍
2015-12-17
Android开发精要
2015-12-17
Android技术内幕.系统卷
2015-12-17
Android高级编程
2015-12-17
JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发
2015-12-17
Mahout算法解析与案例实战
2015-12-16
LINUX内核设计与实现
2015-12-14
重构-改善即有代码的设计
2015-12-14
算法艺术和信息学竞赛
2015-12-14
apache-mahout-distribution-0.11.1-src
2015-11-30
Better bitmap performance with Roaring bitmaps
2023-03-06
美团外卖离线数仓建设实践
2023-02-19
Redis 入门指南
2017-06-02
Apache Sqoop Cookbook
2016-11-14
Apache Spark源码剖析
2016-11-12
Elasticsearch.The.Definitive.Guide
2016-10-21
Shell脚本学习指南
2016-05-28
精通Spring
2016-02-07
Java Persistence with MyBatis 3
2016-02-06
Spring-Jar-4.2.4
2016-01-28
log4j所需jar包
2016-01-20
Hadoop实战中文版
2015-12-25
大规模分布式系统架构与设计实战
2015-12-25
Hive Range Between 结果错误问题
2023-02-28
Storm Trident 抛异常不重发
2018-11-23
hive SERDEPROPERTIES 实现正则过滤
2018-06-05
Flink 关于窗口Window的问题
2018-01-17
Hive 运行SQL 重定向文件 输出WARN日志
2017-06-13
Hadoop Distcp报错 队列问题
2017-01-17
Hive Join 失败
2016-11-28
Hive 查询问题
2016-09-07
Hive LOAD DATA 错误
2016-07-23
[ElasticSearch] 中文字符串精确搜索 term 搜不到结果
2016-07-05
mysql group by 统计问题
2016-06-17
大型分布式网站架构的演进
2016-05-16
ubuntu IntelliJ Idea设置快捷方式问题
2016-03-08
罗技键盘 k380 连接上 没有任何的反应?
2016-03-06
Maven archetype:generate报错
2016-01-25
Log4j问题
2016-01-16
Java Stringbuilder调用append()方法报错
2015-12-20
nosql开放性问题
2015-12-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人