- 博客(1173)
- 资源 (291)
- 收藏
- 关注
转载 爱奇艺数据质量监控的探索和实践
本文主要介绍数据治理平台中的规则引擎模块,包括当前规则引擎面临的问题、目标、异常检测的方法以及对后续规则引擎功能的探索。01问题和目标:为什么要进行数据质量监控?数据质量监控其实跟当前疫情...
2021-10-11 12:10:00 936
转载 Go+ 1.0即将正式发布!相关特性和发展路线图介绍
国人开发的编程语言?兼容 Go 语言?为数据科学而生?以 Python 之形结合 Go 之心?10 月 15 日·上海,这场名为「Go+ Together!Go+ 1.0 发布会暨 Go+...
2021-10-11 12:10:00 1228
转载 官宣|Apache Flink 1.14.0 发布公告
作者 |Stephan Ewen & Johannes Moser翻译 |宋辛童在 Apache 软件基金会近期发布的年度报告中,Apache Flink 再次跻身最活跃项目前...
2021-10-09 18:10:27 1196
转载 腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统
一、背景介绍1. 需要解决的业务痛点推荐系统对于推荐同学来说,想知道一个推荐策略在不同人群中的推荐效果是怎么样的。运营对于运营的同学来说,想知道在广东省的用户中,最火的广东地域内容是哪些?...
2021-10-07 20:50:24 1378
转载 分布式消息队列的演进
作者:vincentchma,腾讯 IEG 后台开发工程师一、消息队列的演进分布式消息队列中间件是是大型分布式系统中常见的中间件。消息队列主要解决应用耦合、异步消息、流量削锋等问题,具有高...
2021-09-30 11:29:46 1290
转载 Apache Flink 在汽车之家的应用与实践
一、背景及现状1. 第一阶段在 2019 年之前,汽车之家的大部分实时业务都是运行在 Storm 之上的。Storm 作为早期主流的实时计算引擎,凭借简单的 Spout 和 Bolt 编程...
2021-09-29 09:00:00 852
原创 ASM 与 Presto 动态代码生成简介
代码生成是很多计算引擎中常用的执行优化技术,比如我们熟悉的 Apache Spark 和 Presto 在表达式等地方就使用到代码生成技术。这两个计算引擎虽然都用到了代码生成技术,但是实现...
2021-09-28 12:03:00 1309
原创 Apache Kafka 3.0.0 稳定版发布,有哪些值得关心的变化?
Apache Kafka 3.0 于2021年9月21日正式发布。本文将介绍这个版本的新功能。以下文章翻译自 《What's New in Apache Kafka 3.0.0》。我很高兴...
2021-09-24 11:57:08 4966
原创 Flink在bilibili的优化与实践
导读:本文主要介绍Flink实时计算在bilibili的优化,将从以下四个方面展开:1、Flink-connector稳定性优化2、Flink sql优化3、Flink-runtime优...
2021-09-23 09:00:00 1766
转载 当一个合格的 Flink Boy 有啥可难的
这几年,Flink 作为备受瞩目的新一代开源大数据计算引擎,已成为 Apache 基金会和 GitHub 最为活跃的顶级项目之一。它在电商领域的应用尤为广泛,就拿天猫“双 11” ,这种一...
2021-09-23 09:00:00 1126
转载 京东 ClickHouse 高可用实践
导读:京东OLAP采取ClickHouse为主Doris为辅的策略,有3000台服务器,每天亿次查询万亿条数据写入,广泛服务于各个应用场景,经过历次大促考验,提供了稳定的服务。本文介绍了C...
2021-09-22 09:00:00 1402 2
转载 LinkedIn 是如何将 Hadoop YARN 集群扩展到超过一万个节点的
在 LinkedIn,我们使用 Hadoop 作为大数据分析和机器学习的基础组件。随着数据量呈指数级增长,并且公司在机器学习和数据科学方面进行了大量投资,我们的集群规模每年都在翻倍,以匹配...
2021-09-21 21:30:00 654
转载 CPU 和 GPU - 异构计算的演进与发展
世界上大多数事物的发展规律是相似的,在最开始往往都会出现相对通用的方案解决绝大多数的问题,随后会出现为某一场景专门设计的解决方案,这些解决方案不能解决通用的问题,但是在某些具体的领域会有极...
2021-09-19 09:55:32 2015
原创 取代数仓!就在刚刚,公司宣布1年内完成向数据中台的迁移…
提起业务流量,除了全民抢票平台 12306,当数阿里最有发言权。上到双十一千亿级流量洪峰,下到日均百万、千万交易量的平台,每个业务模块背后的高并发架构理念,无处不在。成熟的架构设计只是其一...
2021-09-17 09:00:00 247
转载 基于 Kubernetes 构建多集群的流水线
基于Kubefed的多集群管理实践多集群场景主要分以下几个方面:1)高可用低延时:应用部署到不同的集群去做高可用2)容灾备份:特别是针对于数据库这类的应用 在a集群对外提供服务的同时给b集...
2021-09-16 09:00:00 614
原创 关于数仓搭建,我有这几条心得...
有人说近几年我们所创造的数据,比之前创造所有数据的总和还要多。看似夸张的说法,却已经在告诉我们,现在是数据的时代。企业在逐渐依赖数据,与数据挂钩的岗位更是水涨船高。现在打算从事大数据领域工...
2021-09-16 09:00:00 386
转载 Flink 在 58 同城的应用与实践
摘要:本文整理自 58 同城实时计算平台负责人冯海涛在 Flink Forward Asia 2020 分享的议题《Flink 在 58同城应用与实践》,内容包括:实时计算平台架实时S...
2021-09-15 17:42:33 250
转载 Presto高性能引擎在美图的实践
导读:本文的主题是Presto高性能引擎在美图的实践,首先将介绍美图在处理ad-hoc场景下为何选择Presto,其次我们如何通过外部组件对Presto高可用与稳定性的增强。然后介绍在美图...
2021-09-14 09:00:00 559
转载 阿里云IoT工业数据上云优化实践
导读:工业互联网技术,是物联网技术、云边协同、数据库、实时计算等领域的综合应用场景。本文会从工程实践角度,讲述智能制造数字化赋能转型的角度,并结合智能制造转型应用案例,端到端地讲述阿里云I...
2021-09-13 09:14:30 1043
转载 Meetup No.1 | StarRocks 技术详解
Meetup No.1StarRocks 技术详解时间:2021 年 9 月 16 日,周四 19:00-20:0019:00 - 20:00StarRocks 技术详解赵纯,StarR...
2021-09-13 09:14:30 1518
转载 Magnet:即将随 Apache Spark 3.2 发布的高性能外部 Shuffle 服务
在 LinkedIn,我们非常依赖离线数据分析来进行数据驱动的决策。多年来,Apache Spark 已经成为 LinkedIn 的主要计算引擎,以满足这些数据需求。凭借其独特的功能,Sp...
2021-09-12 21:11:56 802
转载 浅谈网易大数据平台下的数据质量
大数据平台的核心理念是构建于业务之上,用数据为业务创造价值。大数据平台的搭建之初,优先满足业务的使用需求,数据质量往往是被忽视的一环。但随着业务的逐渐稳定,数据质量越来越被人们所重视。千里...
2021-09-09 09:01:04 479
转载 千万级流量压测在京东的技术变革
导读压测是目前科技企业及传统企业进行系统容量评估、容量规划的最佳实践方式,本文将基于京东ForceBot平台在大促(京东618、京东双11)备战中的实践历程,给大家分享平台在压测方面的技术...
2021-09-08 09:00:00 675
转载 边缘计算在网易的探索实践
导读:随着物联网的发展,网易内部万物互联的需求井喷式爆发。边缘计算借助本地网关的计算能力,无延时采集处理数据,云边协同,缩短控制链路,告别设备“断网即失控”的尴尬。目前边缘计算已落地网易智...
2021-09-07 09:00:00 282
转载 实时数仓在有赞的实践
作者:小君部门:技术中台/数据中台前言 随着实时技术的不断发展和商家实时应用场景的不断丰富,有赞在实时数仓建设方面做了大量的尝试和实践。本文主要分享有赞在建设实时数仓过程中所沉淀的经验,...
2021-09-06 09:00:00 388
原创 Uber 是如何减少大数据平台的成本
随着 Uber 业务的扩张,为其提供支持的基础数据呈指数级增长,因此处理成本也越来越高。当大数据成为我们最大的运营开支之一时,我们开始了一项降低数据平台成本的举措,该计划将挑战分为三部分:...
2021-09-05 20:32:55 402
转载 Apache Flink 1.14 新特性介绍
摘要:本文由社区志愿者陈政羽整理,内容源自阿里巴巴技术专家宋辛童 (五藏) 在 8 月 7 日线上 Flink Meetup 分享的《Flink 1.14 新特性预览》。主要内容为:简介流...
2021-09-03 09:00:00 613
转载 大数据先驱Cloudera拥抱云计算,探索后Hadoop时代的下一代数据平台
未来十年,企业数据管理模式将如何进化?Cloudera 的答案是 — 企业数据云。在数据爆炸时代“掘金”数字正在“吞噬”世界。过去的十几年里,我们进入了一个数据爆炸、信息过载的时代。数据规...
2021-09-02 09:00:00 288
转载 配运基础数据缓存瘦身实践
导读通过redis scan命令实现对字典数据的遍历,从而对得到的数据进行处理;介绍了redis字典的几种状态:扩容后,缩容后,rehashing;探究scan命令的底层原理,如何保证字典...
2021-09-01 09:00:00 347
转载 还在手动分库分表?快用 ShardingSphere 架构,真香!!
“ShardingSphere 大大简化了分库分表的开发和维护工作,对于业务的快速上线起到了非常大的支撑作用,保守估计 ShardingSphere 至少为我们节省了 4 个月的研发成本。...
2021-09-01 09:00:00 538
转载 Presto 全新的 Parquet Writer 介绍
随着越来越多的公司广泛部署 Presto,Presto 不仅用于查询,还用于数据摄取和 ETL 作业。所有很有必要提高 Presto 文件写入的性能,尤其是流行的列文件格式,如 Parqu...
2021-08-31 09:00:00 889
转载 跨越速运 x DorisDB:统一查询引擎,强悍性能带来极速体验
跨越速运集团有限公司创建于2007年,目前服务网点超过3000家,覆盖城市500余个,是中国物流服务行业独角兽企业。跨越集团大数据中心负责全集团所有数据平台组件的建设和维护,支撑20余条核...
2021-08-30 18:23:00 265
转载 企业级数据中台的建设方法、架构和技术栈
多数企业都意识到数据的重要性,都希望利用数据来驱动业务发展。但经常会听到这样一句话:“我们企业现在业务都还没做起来,连数据都没有,还不到考虑数据利用的时候。”这句话在某种程度上代表了一部分...
2021-08-28 09:00:00 1018
转载 美团外卖实时数仓建设实践
本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是:一个通用的实时生产平台跟一个通用交互...
2021-08-27 09:00:00 530
转载 离线计算平台在汽车之家的演进之路
本次的分享内容分成四个部分:1.汽车之家离线计算平台现状2.平台构建过程中遇到的问题3.基于构建过程中问题的解决方案4.离线计算平台未来规划▌汽车之家离线计算平台现状1.汽车之家离线计算...
2021-08-26 19:59:05 286
转载 Spark吐血整理,学习与面试收藏这篇就够了!
本文目录:一、Spark 基础二、Spark Core三、Spark SQL四、Spark Streaming五、Structured Streaming六、Spark 两种核心 Shuf...
2021-08-25 12:40:00 2003 1
转载 数据治理与安全在各大厂的实践探索
2021年8月28日,DataFunSummit:数据治理与安全在线峰会将如约而至。在数据治理与数据安全越来越被国家重视的背景下,我们特组织了本次峰会,以期提升大家对数据治理与数据安全的认...
2021-08-25 12:40:00 271
转载 避坑指南:Kafka集群快速扩容的方案总结
什么是数据迁移Apache Kafka 对于数据迁移的官方说法是分区重分配。即重新分配分区在集群的分布情况。官方提供了kafka-reassign-partitions.sh脚本来执行分区...
2021-08-24 09:00:00 490
转载 Redis主从握手流程,你真的了解了吗?
本文文末有赠书彩蛋,赠书9本,要看到最后哦~Redis是开源的key-value存储系统,可作为数据库、缓存、消息组件。Redis的作者是Salvatore Sanfilippo(网名为a...
2021-08-23 12:40:55 264
转载 Apache Hadoop 基础设施容器化在 Uber 的实践
大数据厂长备注:以下的我们均代表 Uber 的 Hadoop 运维团队。介绍随着 Uber 业务的增长,Uber 公司在 5 年内将 Apache Hadoop(本文简称为“Hadoop”...
2021-08-22 20:54:00 451
HBase in Practise: 性能、监控和问题排查
2018-08-13
HBase Procedure V2介绍
2018-08-13
Scala Cheat Sheet
2018-07-04
Apache Hive Functions Cheat Sheet
2018-07-04
Apache Spark Cheat Sheet
2018-07-04
spark-summit-north-america-2018-06 全部 PPT -part1
2018-06-19
spark-summit-north-america-2018-06 全部 PPT -part2
2018-06-17
A Deep Dive into Stateful Stream Processing in Structured Streaming
2018-06-17
Implementing AutoML Techniques at Salesforce Scale
2018-06-17
Using AI to Deliver a Device as a Service
2018-06-17
Foundations of streaming SQL
2018-06-15
Deep Dive into Spark SQL with Advanced Performance Tuning
2018-06-11
HBase-The Definitive Guide-Second Edition-Early Release.pdf
2018-05-23
Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf
2018-05-16
QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf
2018-05-16
QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf
2018-05-16
Apache iceberg:Netflix 数据仓库的基石
2020-02-23
Apache Hadoop 3.x state of the union and upgrade guidance
2020-02-04
Apache Doris (Incubating) 原理与实践.pdf
2019-12-10
Spark SQL 在字节跳动的优化实践-郭俊.pdf
2019-12-03
Spark+AI Summit Europe 2019 Part 3
2019-11-03
Spark+AI Summit Europe 2019_iteblog.zip.002
2019-11-01
Spark+AI Summit Europe 2019_iteblog.zip.001
2019-11-01
The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf
2019-10-28
Apache Spark 3.0, Koalas, Delta Lake 最新进展
2019-10-28
SPARK + AI SUMMIT 2019 全部 PPT
2019-09-21
From Stream Processor to a Unified Data Processing System
2019-04-20
Apache Spark 2.4 and beyond
2019-04-14
Flink社区专刊S2-重新定义计算
2019-04-11
从MPP数仓迁移至Spark:案例与最佳实践分享
2019-03-31
2018 Apache HBase 技术实战专刊
2019-01-07
Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]
2018-12-10
Apache Spark Shuffle I/O 在 Facebook 的优化
2018-12-10
不仅仅是流计算:Apache Flink实践
2018-11-29
Spark AI Summit Europe 2018 全部PPT - part1
2018-10-13
Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人