- 博客(1175)
- 资源 (291)
- 收藏
- 关注
转载 这几个Python数据可视化探索实例,拿走不谢!
本文选自清华大学出版社的新书《深入浅出Python数据分析》章节,推荐一下。利用可视化探索图表一、数据可视化与探索图 数据可视化是指用图形或表格的方式来呈现数据。图表能够清楚地呈现数据性质, 以及数据间或属性间的关系,可以轻易地让人看图释义。用户通过探索图(Exploratory Graph)可以了解数据的特性、寻找数据的趋势、降低数据的理解门槛。二、常见的图表...
2022-05-16 19:25:19 1089
转载 数据标准在网易的实践
在生活中,标准与我们息息相关,吃的食品需要满足国家标准才能食用,汽车排放达标才能够上路行驶,电脑接口得满足统一的标准才能够与外设对接等等。而在数据的世界,数据标准也同等重要。我们期望将数据标准真正应用到实践中去,帮助客户解决资产化不足、数据质量难以提升、数据开发效率低等问题,于是网易开始了数据标准的建设。本文将基于我们对数据标准的理解,阐述标准的建立并依据标准的建立内容和...
2022-05-11 11:59:03 539
转载 B站取数服务演进之路
在这篇基于 Iceberg 的湖仓一体架构在 B 站的实践我们介绍了B站基于Iceberg的湖仓一体架构实践,本篇我们将继续介绍B站在取数服务方向的演进之路,这也是湖仓一体架构的实践的重要表现方式。01引言数据平台部作为B站的基础部门,为B站各业务方提供多种数据服务,如BI分析平台,ABTest平台,画像服务,流量分析平台等等,这些服务、平台背后都有海量数据的取数查询需求...
2022-05-09 11:53:33 379
转载 阿里大中台小前台详细介绍.ppt
本文完整高清PPT会发到资料群供大家学习,扫文末微信获取本文高清ppt获取请加下方微信备注:阿里中台。如还想获取更多资料,也可加好友邀请进群。 ...
2022-05-06 12:57:55 395
转载 通信大数据架构下的数据治理.pdf
本文完整高清PPT会发到资料群供大家学习,扫文末微信群进入本文完整高清PPT会发到资料群供大家学习,扫下方微信群进入因为微信群后面进来的看不到前面的聊天记录。所以恳请小伙伴们进入后不要刷屏要资料,我时不时会发送在群里,保证一天内!如果实在着急的,可以加我微信要。 ...
2022-04-28 17:49:00 766
转载 大数据平台数据治理与建设方案
本文完整高清PPT会发到资料群供大家学习,扫文末微信群进入本文完整高清PPT会发到资料群供大家学习,扫下方微信群进入因为微信群后面进来的看不到前面的聊天记录。所以恳请小伙伴们进入后不要刷屏要资料,我时不时会发送在群里,保证一天内!如果实在着急的,可以加我微信要。 ...
2022-04-27 18:15:44 190
原创 Presto 原生多 Coordinator 功能简介,可以在生产环境使用
背景Presto 的架构最初只支持一个 coordinator 和多个 workers。多年来,这种方法一直很有效,但也带来了一些新挑战。•使用单个 coordinator,集群可以可靠地扩展到一定数量的 worker。但是运行复杂、多阶段查询的大集群可能会使供应不足的 coordinator 不堪重负,因此需要升级硬件来支持工作负载的增加。•单个 coordinator...
2022-04-23 20:18:59 3406 1
转载 几种常见的 Kafka 集群监控工具
本文选自电子工业出版社的新书《kafka进阶》,推荐一下。一个功能健全的kafka集群可以处理相当大的数据量,由于消息系统是很多大型应用的基石,因此broker集群在性能上的缺陷,都会引起整个应用栈的各种问题。Kafka的度量指标主要有以下三类:1.Kafka服务器(Kafka)指标2.生产者指标3.消费者指标另外,由于Kafka的状态靠Zookeeper来维护,对于Zo...
2022-04-21 12:29:00 6583
转载 如何解决MySQL中的死锁问题?
导读:虽然锁在一定程度上能够解决并发问题,但稍有不慎,就可能造成死锁。本文介绍死锁的产生及处理。作者:肖宇 冰河来源:大数据DT(ID:hzdashuju)01 死锁的产生和预防发生死锁的必要条件有4个,分别为互斥条件、不可剥夺条件、请求与保持条件和循环等待条件,如图1-6所示。▲图1-6 死锁的必要条件1. 互斥条件在一段时间内,计算机中的某个资源只能被一个进程占用。此...
2022-04-20 11:24:07 2942
转载 基于 Iceberg 的湖仓一体架构在 B 站的实践
背景在B站,每天都有PB级的数据注入到大数据平台,经过离线或实时的ETL建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,如何高效低成本地满足下游数据的分析需求,一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的:采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中,然后通过Hive、Spark、Fl...
2022-04-19 09:15:53 1403
原创 在 Presto 中使用一致性哈希来改善动态集群的缓存命中率
目前,越来越多的用户开始在 Presto 里面使用 Alluxio,它通过利用 SSD 或内存在 Presto workers 上缓存热数据集,避免从远程存储读取数据。Presto 支持基于哈希的软亲和调度(hash-based soft affinity scheduling),强制在整个集群中只缓存一到两份相同的数据,通过允许本地缓存更多的热数据来提高缓存效率。但是,...
2022-04-12 20:23:00 1198
转载 Apache YARN 在 B 站的优化实践
1. 背景B站的YARN以社区的2.8.4分支构建,采用CapacityScheduler作为调度器, 期间进行过多次核心功能改造,目前支撑了B站的离线业务、实时业务以及部分AI训练任务。2020年以来,随着B站业务规模的迅速增长,集群总规模达到8k左右,其中单集群规模已经达到4k+ ,日均Application(下文简称App)数量在20w到30w左右。当前最大单集群整...
2022-04-10 20:41:00 1591
转载 基于Flink构建企业级实时数仓(附项目源码)
离线数仓是大数据技术发展至今最耀眼的明星,然而随着业务需求的不断升级,对于一些延时较高的场景,要把链路延时降低到秒级,就需要基于 Flink 的实时数仓出马了。企业级实时数仓的应用场景很多,比如:实时 OLAP 分析;实时数据看板;实时业务监控;实时数据接口服务。很多公司实时数仓的定义都不同,因为“数仓”在诞生之初,就是围绕离线理念设计的。而实时数仓其实就是离线数仓的时效...
2022-04-06 09:17:24 2462
转载 Kubernetes、集群联邦和资源分发
Kubernetes 从比较早的版本就声称单机群可以支持 5,000 节点,而且也没有计划在短期内提高单个 Kubernetes 集群支撑的节点数,如果需要在 Kubernetes 中支持 5,000 以上的节点,更推荐使用集群联邦(Federation)的方式。People frequently ask how far we are going to go in imp...
2022-04-01 19:21:00 1751
转载 HDFS在B站的探索和实践
一、HDFS 架构介绍HDFS离线存储平台是Hadoop大数据计算的底层架构,在B站应用已经超过5年的时间。经过多年的发展,HDFS存储平台目前已经发展成为总存储数据量近EB级,元数据总量近百亿级,NameSpace 数量近20组,节点数量近万台,日均吞吐几十PB数据量的大型分布式文件存储系统。首先我们来介绍一下B站的HDFS离线存储平台的总体架构。图 1-1 HDFS ...
2022-03-31 19:23:00 2046
转载 58集团处罚数据中心的设计与实践
01导读58集团作为国内领先的生活服务及分类信息平台,业务覆盖招聘、房产、汽车、二手、本地生活服务及金融等领域,各业务每天生成海量信息,对内容安全、业务违规的高效治理和处罚的需求亟需解决,本文站在中心化建设视角,阐述58集团处罚数据中心的设计与实践。02背景与目标目前有各业务自建的治理系统和集团主风控系统两条路径来治理内容安全和业务违规问题。上游治理层系统针对用户和信息进...
2022-03-29 20:22:47 2012
转载 “StarRocks 极客营” 重磅来袭,和技术大牛一起推开数据库梦想之门!
操作系统、编译器、数据库是软件工程师的梦之所向,对于大多数人而言,却是近在眼前、远在天边:你是否曾渴望加入 Linux 这样伟大的社区,然觉门槛太高无从下手?你是否也曾想象参与开发 MySQL 这样顶级的项目,可融入无门?你是否梦想让自己的代码为更多人所用,苦于孤军奋战、条件不足?在StarRocks 社区,实现梦想并没有想象中那么难!StarRocks 极客营,专为数...
2022-03-28 20:14:25 2081
原创 Presto 在 Lyft 的实践
2017 年初,我们开始探索 Presto 来解决 OLAP 用例,我们意识到了这个惊人的查询引擎的潜力。与 Apache Hive 相比,它最初是一种临时查询工具,供数据工程师和分析师以更快的方式运行 SQL 来构建查询原型。当时很多内部仪表板都由 AWS-Redshift 提供支持,并将数据存储和计算耦合在一起。我们的数据呈指数级增长(每隔几天翻一番),这也需要频繁的...
2022-03-27 20:19:56 3098
转载 技能证里的天花板-阿里云云计算架构师ACE认证将全面升级!
近年来,随着国内数字化实践的不断深化,中国企业上云意识和积极性明显提高,上云比例和应用场景深度有所提升。根据亿欧智库2022年2月发布的《2021中国公有云服务商能力指数研究报告》指出:随着数字经济和新技术的发展,预计2023年中国政府和大型企业上云率将超过60%,上云深度将有较大提升。这意味着拥有云计算的技术将在职业发展中带来很大的竞争优势。ACE是什么?ACE是阿里云...
2022-03-23 12:20:00 1520
转载 爱奇艺内容中台数据中心的设计与实现
互联网技术发展至今,当业务复杂度比较高的时候,采用微服务化是一个有效的手段,但是随着服务的拆分,数据管理工作变得极具挑战。数据中心(OLTP)通过对数据的统一收集和管理,一方面可以建立数据...
2022-03-21 09:03:14 2409
原创 Flink在米哈游的落地实践
摘要:本文是来自米哈游大数据部对于Flink在米哈游应用及实践的分享。本篇内容主要分为四个部分:1.背景介绍 2.实时平台建设3.实时数仓和数据湖探索4.未来发展与展望作者:实时计算负责人...
2022-03-20 20:36:33 4564
转载 20 个短小精悍的 pandas 骚操作
本次为大家整理了一个pandas骚操作操作的大集合,共20个功能,个个短小精悍,一次让你爱个够。1. ExcelWriter很多时候dataframe里面有中文,如果直接输出到csv里,中...
2022-03-18 19:55:55 2329
转载 从杀慢查询入手来预防 MySQL 雪崩的办法
一、背景慢查询在 MySQL 数据库管理中,已经是再熟悉不过的事情了,只要我们在使用 MySQL,那慢查询就会一直存在下去,因为不管是业务 APP,还是 MySQL,他们的状态都是动态变化...
2022-03-17 18:19:00 2275
转载 ClickHouse 在网易的实践
导读:ClickHouse作为一款开源列式数据库管理系统(DBMS)近年来备受关注,主要用于数据分析(OLAP)领域。作者根据以往经验和遇到的问题,总结出一些基本的开发和使用规范,以供使用...
2022-03-16 20:45:11 2478 1
转载 HBase海量数据高效入仓解决方案
一、方案背景现阶段部分业务数据存储在HBase中,这部分数据体量较大,达到数十亿。大数据需要增量同步这部分业务数据到数据仓库中,进行离线分析,目前主要的同步方式是通过HBase的hive映...
2022-03-15 18:57:00 2334
原创 Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践
背景我们基于 Apache Hadoop® 的数据平台以最小的延迟支持了数百 PB 的分析数据,并将其存储在基于 HDFS 之上的数据湖中。我们使用 Apache Hudi™ 作为我们表的...
2022-03-14 09:00:00 2986
原创 避免 Presto 中的数据孤岛:从 Raptor 到 RaptorX 的旅程
Raptor 是一个 Presto connector (presto-raptor),用于支持 Meta(以前的 Facebook)中的一些关键的交互式查询工作负载。尽管在 ICDE 2...
2022-03-06 20:28:00 3726
转载 Hive SQL 参数与性能调优
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓...
2022-03-04 10:32:09 2348
原创 Presto 常用性能优化技巧
Presto 是一个用于分析的开源分布式 ANSI SQL 查询引擎,支持计算和存储的分离。性能对于一些分析查询尤其重要,因此 Presto 有许多设计特性来最大化 Presto 的速度,...
2022-03-02 21:31:34 3611
转载 一文讲透大数据列存标准格式:Parquet
导读:今天介绍一种大数据时代有名的列式存储文件格式:Parquet,被广泛用于 Spark、Hadoop 数据存储。Parquet 中文直译是镶木地板,意思是结构紧凑,空间占用率高。1、概念大规模分析型数据处理在互联网乃至其他行业中应用都已越来越广泛,尤其是当前已经可以用廉价的存储来收集、保存海量的业务数据情况下。如何让分析师和工程师便捷的利用这些数据也变得越来越重要。列式存储(Column-oriented Storage)是大数据场景面向分析型数据的主流存储方式。与行式存储相比...
2022-03-02 13:26:54 2908
原创 Spark Structured Streaming 2021年最新进展的总结
本文我们将花点时间来回顾一下 Databricks 和 Apache Spark™ 在流数据处理方面所取得的巨大进步!2021年,工程团队和开源贡献者在以下三个目标取得了一些进展:•降低延...
2022-02-28 09:00:00 2692
转载 Apache Doris 向量化设计与实现
导读:向量化技术带来极致的CPU效率的同时,也已经成为了软件开发的趋势,而数据库的向量化不仅仅是 CPU 指令的向量化,还是一个巨大的性能优化工程。本文从CPU向量化原理出发,通过Cach...
2022-02-27 21:19:41 2393
转载 基于 Kafka 的实时数仓在搜索的实践应用
一、概述Apache Kafka 发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。Apache Kafka 社区非常的活跃,通过社区成员不断的贡献代码和迭代项...
2022-02-24 12:52:39 1389
转载 文件系统技术内幕:大数据时代海量数据存储之道
我们无时无刻不在使用文件系统,进行开发时在使用文件系统,浏览网页时在使用文件系统,玩手机时也在使用文件系统。对于非专业人士来说,可能根本不知道文件系统为何物。因为,通常来说,我们在使用文件...
2022-02-22 09:09:53 2287
转载 如何结合SQL解析,设置ClickHouse表的最佳生命周期?
1. 问题背景在我们日常的业务中,数据往往以库表的形式呈现,数据生产和数据消费则分别对应着库表的创建和查询。对于ClickHouse而言,数据的生成是上游库表的同步导入,数据的消费是用户通...
2022-02-18 09:00:00 751
转载 Flink SQL 在快手的扩展与实践
摘要:本文整理自快手实时计算团队技术专家张静、张芒在 Flink Forward Asia 2021 的分享。主要内容包括:Flink SQL 在快手功能扩展性能优化稳定性提升未来展望一、...
2022-02-15 20:23:09 1308
转载 数据湖统一存储在 OPPO 的实践
分享嘉宾:Xiaochun He OPPO,编辑整理:门君仪 澳洲国立大学导读:OPPO是一家智能终端制造公司,有着数亿的终端用户,手机 、IoT设备产生的数据源源不断,设备的智能化服务需...
2022-02-10 21:07:51 418
转载 一文理解实时数据仓库的演进
数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一...
2022-02-07 20:42:04 1262
转载 这里有20万个虎年微信红包封面免费领取!
今天搞了20万个微信红包封面,送给大家。红包长这样子怎么领取?在下面公众号回复【红包封面】,弹出二维码直接扫码就可领取。如有问题,可加我微信:fangzhen0219 我将一对一发送。最后...
2022-01-26 19:22:00 1610
原创 起源于 Kettle 的新一代数据集成平台 Apache Hop 成为 Apache 顶级项目
Apache Hop(Hop Orchestration Platform 的首字母缩写)是一种数据编排(data orchestration )和数据工程平台(data engineer...
2022-01-23 20:30:00 6625
HBase in Practise: 性能、监控和问题排查
2018-08-13
HBase Procedure V2介绍
2018-08-13
Scala Cheat Sheet
2018-07-04
Apache Hive Functions Cheat Sheet
2018-07-04
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
Using AI to Deliver a Device as a Service
2018-06-17
Foundations of streaming SQL
2018-06-15
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
HBase-The Definitive Guide-Second Edition-Early Release.pdf
2018-05-23
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Spark+AI Summit Europe 2019 Part 3
2019-11-03
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
From Stream Processor to a Unified Data Processing System
2019-04-20
Apache Spark 2.4 and beyond
2019-04-14
Flink社区专刊S2-重新定义计算
2019-04-11
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
2018 Apache HBase 技术实战专刊
2019-01-07
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
不仅仅是流计算:Apache Flink实践
2018-11-29
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人