大数据
文章平均质量分 91
过往记忆
这个作者很懒,什么都没留下…
展开
-
一文讲透大数据列存标准格式:Parquet
导读:今天介绍一种大数据时代有名的列式存储文件格式:Parquet,被广泛用于 Spark、Hadoop 数据存储。Parquet 中文直译是镶木地板,意思是结构紧凑,空间占用率高。1、概念大规模分析型数据处理在互联网乃至其他行业中应用都已越来越广泛,尤其是当前已经可以用廉价的存储来收集、保存海量的业务数据情况下。如何让分析师和工程师便捷的利用这些数据也变得越来越重要。列式存储(Column-oriented Storage)是大数据场景面向分析型数据的主流存储方式。与行式存储相比...转载 2022-03-02 13:26:54 · 3728 阅读 · 0 评论 -
Presto在字节跳动的内部实践与优化
引言在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。 功能性方面 完全兼容 SparkSQL 语法,可以实现用户从 SparkSQL 到 Presto 的无感迁移; 性能方面 实现 Join Reorder,Runtime Filter 等优化,在 TPCDS1T 数据集上性能相对社区版本提升 80.5%; 稳定性方面 首先,实现了多 Coordinator 架构,解决了 Presto 集转载 2021-12-30 09:35:06 · 835 阅读 · 0 评论 -
深入理解 Apache Spark Delta Lake 的事务日志
事务日志是理解Delta Lake的关键,因为它是贯穿许多最重要功能的通用模块,包括 ACID 事务、可扩展的元数据处理、时间旅行(time travel)等。本文我们将探讨事务日志(Transaction Log)是什么,它在文件级别是如何工作的,以及它如何为多个并发读取和写入问题提供优雅的解决方案。事务日志(Transaction Log)是什么Delta Lake事务日志(也称...原创 2019-09-27 10:15:44 · 538 阅读 · 0 评论 -
云栖大会 | Apache Spark 3.0 和 Koalas 最新进展
本资料来自2019-09-26在杭州举办的云栖大会的大数据 & AI 峰会分会。议题名称《New Developments in the Open Source Ecosystem: ApacheSpark3.0 and Koalas》,分享嘉宾李潇,DatabricksSpark研发总监。本次会议的完整视频和 PPT 请关注 过往记忆大数据 公众号并回复 spark_yq 获...原创 2019-10-08 17:04:21 · 923 阅读 · 0 评论