- 博客(1188)
- 资源 (291)
- 收藏
- 关注
原创 RaptorX: 将 Presto 性能提升十倍
存储计算分离是整个行业的发展趋势,这种架构的存储和计算可以各自独立发展,它帮助云提供商降低成本。Presto 原生就支持这样的架构,数据可以从 Presto 服务器之外的远程存储节点传输过...
2021-12-05 20:40:43 3141 1
转载 面试必备:一文理解 Java 内存模型
01导言多线程、高并发问题相信是每一位从事Java研发工作的程序员都不可回避的一个重要话题。从启动一个线程,到使用volatile、synchronized、final关键字,到使用wai...
2021-12-04 19:23:44 978
转载 Kafka那么成熟,为什么我们还需要Pulsar?(文末送书)
随着互联网的高速发展,用户规模与业务并发量开始急剧增加,海量的请求需要接收和存储,业务需要中间件来实现削峰填谷;业务也在不断发展,企业内部的系统数量也在不断地增长,不同语言开发出来的系统需...
2021-12-03 12:30:00 214
转载 精选30个炫酷的数据可视化大屏(含源码),拿走就用!
大屏数据可视化是以大屏为主要展示载体的数据可视化设计。“大面积、炫酷动效、丰富色彩”,大屏易在观感上给人留下震撼印象,便于营造某些独特氛围、打造仪式感。原本看不见的数据可视化后,便能调动人...
2021-12-02 19:12:25 2642 23
转载 去哪儿网BI平台建设演进与实践
作者介绍张杰,2015年1月加入去哪儿网,致力于数据为业务赋能,前期主要做离线、实时数仓建设,后期主要做数据平台建设,目前是数据建设-数据平台组负责人。杜峻辰,2018年11月加入去哪儿网...
2021-12-01 11:33:10 1969
转载 一文掌握 Redis 线程模型
作者:vivo互联网服务器团队-Wang Shaodong一、概述众所周知,Redis是一个高性能的数据存储框架,在高并发的系统设计中,Redis也是一个比较关键的组件,是我们提升系统性能...
2021-11-30 09:00:00 1511
转载 基于Flink建设流批一体实时数仓
双十一流量洪峰已经过去,身为大数据工程师的你,还在苦学Spark、Hadoop、Storm,却还没搞过Flink?每年双十一,阿里都在Flink实时计算技术的驱动下全程保持了“如丝...
2021-11-30 09:00:00 1894
转载 ClickHouse 在有赞的实践
分享嘉宾:陈琦(前) 有赞,编辑整理:刘鹏鹏 滴滴出行,出品平台:DataFunTalk导读:有赞是什么?有赞是一家商家服务公司。致力于成为商家服务领域里最被信任的引领者;并持续做一个En...
2021-11-29 09:00:00 1345
转载 Presto Iceberg 数据源 + Alluxio 使用以及最新进展介绍
本文来自 Alluxio 在2021年11月27日举办的 《【Iceberg + Alluxio】助力加速数据通道》在线会议。分享者为王北南和shouwei chen。本次分享主要分两部分...
2021-11-28 21:11:27 2684
转载 Elasticsearch写入原理,一看便知!
“ 随着业务量的增加,越来越多的场景都会面对海量数据查询的情况。Elasticsearch 作为主流的搜索引擎,以其良好的扩展性,优越查询响应,被各个企业争相使用。Elasticsearc...
2021-11-27 20:48:32 1527
转载 【数据治理大赛作品分享】网易传媒数据管治建设实践
导读:本篇是首届网易数据治理大赛一等奖的作品分享,来自于网易传媒大数据团队。传媒的数据管治实践解决了资源使用负载高、不可控的痛点,搭建了数据资产登记和成本运营体系,保障了数据生产长期稳定,...
2021-11-26 09:00:00 390
转载 云计算最佳实践系列之 K8s集群搭建+容器编排
身为让容器应用实现大规模工业生产的一大功臣,过去几年,Kubernetes 势头迅猛,BAT、京东、美团、字节都走上了全域容器化部署以及云原生架构的康庄大道。而作为支撑阿里万亿级应用背后...
2021-11-26 09:00:00 1300
转载 ElasticSearch 索引设计指南
作者介绍许睿哲2020年12月加入去哪儿网-数据平台团队,目前主要负责公司的 esaas 云服务与实时日志 ELK 平台的开发、维护与优化。主导参与了公司的 ES 架构升级迁移与 ES 平...
2021-11-25 09:00:00 2870
转载 Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎
Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更...
2021-11-24 09:00:00 2536 1
转载 vivo统一告警平台建设与实践
一、背景一套监控系统检测和告警是密不可分的,检测用来发现异常,告警用来将问题信息发送给相应的人。vivo监控系统1.0时代各个监控系统分别维护一套计算、存储、检测、告警收敛逻辑,这种架构下...
2021-11-23 09:00:00 342
转载 数仓建设规范指南
本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!目录:一、数据模型架构原则数仓分层原则主题域划分原则数据模型设...
2021-11-22 09:00:00 808
原创 一文理解 Presto 两种 JOIN 算法实现
我们在 《Presto 中支持的七种 Join 类型》 这篇文章中介绍了 Presto 可用的 JOIN 操作的基础知识,以及如何在 SQL 查询中使用它们。有了这些知识,我们现在可以了解...
2021-11-21 20:04:27 3372
转载 Apache Hudi 在 B 站构建实时数据湖的实践
摘要:本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi 的数据湖技术方案,以及针对其做出的优化。主要内容为:传统离线数仓痛点数据湖技术方案Hudi 任务稳定性保障数据入湖...
2021-11-20 21:38:37 633
转载 Chrome 插件特性及实战场景案例分析
一、前言提起Chrome扩展插件(Chrome Extension),每个人的浏览器中或多或少都安装了几个插件,像一键翻译、广告屏蔽、录屏等等,通过使用这些插件,可以有效的提高我们的工作效...
2021-11-19 09:00:00 1315
转载 百度智能云大数据平台技术讲解及落地实战
在今天数字经济的浪潮中,产业充分认识到要做好数字化、智能化,第一件要做的事情即是健全的企业大数据能力。在数据量指数增长、数据类型繁杂多样、数据应用场景多变、数据分析实时性要求高的多重挑战下...
2021-11-18 20:30:34 1522
转载 Elasticsearch 脚本安全使用指南
1、关于 Elasticsearch 脚本实战问题最近星球群里讨论了脚本的使用。当看到复杂脚本的时候,我的第一反应是:类似复杂查询要搞这么复杂吗?能否前置让 ingest 预处理多花时间,...
2021-11-18 20:30:34 789
转载 基于 Flink 构建全场景多维度实时计算数仓
双十一流量洪峰将至,身为大数据工程师的你,还在苦学Spark、Hadoop、Storm,却还没搞过Flink?去年双十一,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑...
2021-11-16 09:00:00 1592
转载 Flink深度解读--附实现原理细节
导语|大数据计算分为离线计算和实时计算,其中离线计算就是我们通常说的批计算,代表技术是Hadoop MapReduce、Hive等;实时计算也被称作流计算,代表技术是Storm、Spa...
2021-11-16 09:00:00 2198
原创 Presto on Spark:通过 Spark 来扩展 Presto
概述Presto 最初设计是对数据仓库中的数据运行交互式查询,但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎,用于交互式和批处理工作负载,数据湖上的流行工作负载包括:•...
2021-11-14 20:52:09 2148
转载 OPPO大数据计算集群资源调度架构演进
1 背景随着公司这两年业务的迅速扩增,业务数据量和数据处理需求也是呈几何式增长,这对底层的存储和计算等基础设施建设提出了较高的要求。本文围绕计算集群资源使用和资源调度展开,将带大家了解集群...
2021-11-12 09:00:00 797
原创 Presto 中支持的七种 Join 类型
Join 操作是最重要和最昂贵的 SQL 操作之一,需要数据库工程师深入理解才能编写高效的 SQL 查询。从数据库工程师的角度来看,了解 JOIN 操作的工作原理有助于他们优化 JOIN ...
2021-11-11 09:00:00 5417
转载 Redis 大集群扩容性能优化实践
作者:vivo互联网数据库团队—Yuan Jianwei一、背景在现网环境,一些使用Redis集群的业务随着业务量的上涨,往往需要进行节点扩容操作。之前有了解到运维同学对一些节点数比较大的...
2021-11-10 09:00:00 522
转载 英特尔陈葆立:以多样化的产品方案,构建数据中心强大生态
数字时代的今天,企业更加迫切的希望通过创新来提高自身的竞争力,获得可持续性发展。面对云计算、AI、5G、物联网等新技术,如果在数据中心、云、边端等不同的环境中开发应用,提高业务响应能力,成...
2021-11-10 09:00:00 940
转载 Apache Flink 在双十一流量洪峰下的最佳实践
双十一流量洪峰将至,身为大数据工程师的你,还在苦学Spark、Hadoop、Storm,却还没搞过Flink?去年双十一,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑...
2021-11-09 09:00:00 1053
转载 OPPO 大数据计算集群资源调度架构演进
1 背景随着公司这两年业务的迅速扩增,业务数据量和数据处理需求也是呈几何式增长,这对底层的存储和计算等基础设施建设提出了较高的要求。本文围绕计算集群资源使用和资源调度展开,将带大家了解集群...
2021-11-09 09:00:00 954
转载 Apache Doris 和 ClickHouse 的选型比较
背景介绍Apache Doris是由百度贡献的开源MPP分析型数据库产品,亚秒级查询响应时间,支持实时数据分析;分布式架构简洁,易于运维,可以支持10PB以上的超大数据集;可以满足多种数据...
2021-11-08 09:00:00 4300
转载 ClickHouse 在爱奇艺实时数仓的应用
众所周知,爱奇艺拥有海量视频,在视频生产过程中产生的上千QPS的实时数据、T级别的数据存储。要支持这样的数据进行即席查询和多个大表的JOIN,是爱奇艺视频生产团队大数据应用的难点。具体来说...
2021-11-07 19:50:20 1406
转载 Hudi + Flink 实时数仓在顺丰的实践
摘要:本文作者刘杰,介绍了顺丰科技数仓的架构,趟过的一些问题、使用 Hudi 来优化整个 job 状态的实践细节,以及未来的一些规划。主要内容为:数仓架构Hudi 代码躺过的坑状态优化未来...
2021-11-05 09:00:00 1359
转载 Snowflake & Delta Lake两大新型数仓对比分析
Snowflake & Delta Lake 代表了当前业内最先进的两种数仓形态,并且都得到了市场上用户的高度认可。1概述数据分析从上世纪 80 年代兴起以来,大体经历了企业数仓(...
2021-11-04 09:38:39 1343
转载 同程旅行Hadoop集群跨机房迁移实践
本文作者:郭飞。现任同程旅行技术专家。Apache Hadoop、Hive、Sparkcontributor背景随着同程旅行业务和数据规模越来越大,原有的机房不足以支撑未来几年的扩容...
2021-11-03 09:26:54 1386
转载 从 Spark 做批处理到 Flink 做流批一体
摘要:本⽂主要内容为:为什么要做流批一体?当前行业已有的解决方案和现状,优势和劣势探索生产实践场景的经验Shuflle Service 在 Spark 和 Flink 上的对比,以及 Fl...
2021-11-02 09:00:00 764
转载 Apache Kafka 在 vivo 的实战
作者:vivo互联网服务器团队-Yang Yijun一、Kafka应用本文主要总结当Kafka集群流量达到万亿级记录/天或者十万亿级记录/天 甚至更高后,我们需要具备哪些能力才能保障集...
2021-11-01 20:04:59 1721 3
转载 大数据开发必看资料--不断更新
1,各大厂ppt都是实战案例,价值很高2,csdn积分下载文件来自群友的需求,同行都在关心啥3,获取方式加我好友:fangzhen0219 备注【资料】 ...
2021-10-31 21:23:34 831
转载 一文掌握 Kafka 集群快速扩容的方案
什么是数据迁移Apache Kafka 对于数据迁移的官方说法是分区重分配。即重新分配分区在集群的分布情况。官方提供了kafka-reassign-partitions.sh脚本来执行分区...
2021-10-30 22:01:00 802
转载 一文理解 Kafka 的 Controller 领导选举!
导语|Controller作为Apache Kafka的核心组件,本文将从背景、原理以及源码与监控等方面来深入剖析Kafka Controller,希望带领大家去了解Controlle...
2021-10-29 09:00:00 1571 1
HBase in Practise: 性能、监控和问题排查
2018-08-13
HBase Procedure V2介绍
2018-08-13
Scala Cheat Sheet
2018-07-04
Apache Hive Functions Cheat Sheet
2018-07-04
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
Using AI to Deliver a Device as a Service
2018-06-17
Foundations of streaming SQL
2018-06-15
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Spark+AI Summit Europe 2019 Part 3
2019-11-03
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
From Stream Processor to a Unified Data Processing System
2019-04-20
Apache Spark 2.4 and beyond
2019-04-14
Flink社区专刊S2-重新定义计算
2019-04-11
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
2018 Apache HBase 技术实战专刊
2019-01-07
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
不仅仅是流计算:Apache Flink实践
2018-11-29
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人