过往记忆-CSDN博客

转载爱奇艺数据质量监控的探索和实践

本文主要介绍数据治理平台中的规则引擎模块，包括当前规则引擎面临的问题、目标、异常检测的方法以及对后续规则引擎功能的探索。01问题和目标：为什么要进行数据质量监控？数据质量监控其实跟当前疫情...

2021-10-11 12:10:00 936

转载 Go+ 1.0即将正式发布！相关特性和发展路线图介绍

国人开发的编程语言？兼容 Go 语言？为数据科学而生？以 Python 之形结合 Go 之心？10 月 15 日·上海，这场名为「Go+ Together！Go+ 1.0 发布会暨 Go+...

2021-10-11 12:10:00 1228

转载官宣｜Apache Flink 1.14.0 发布公告

作者 |Stephan Ewen & Johannes Moser翻译 |宋辛童在 Apache 软件基金会近期发布的年度报告中，Apache Flink 再次跻身最活跃项目前...

2021-10-09 18:10:27 1196

转载腾讯看点基于 Flink 构建万亿数据量下的实时数仓及实时查询系统

一、背景介绍1. 需要解决的业务痛点推荐系统对于推荐同学来说，想知道一个推荐策略在不同人群中的推荐效果是怎么样的。运营对于运营的同学来说，想知道在广东省的用户中，最火的广东地域内容是哪些？...

2021-10-07 20:50:24 1378

转载分布式消息队列的演进

作者：vincentchma，腾讯 IEG 后台开发工程师一、消息队列的演进分布式消息队列中间件是是大型分布式系统中常见的中间件。消息队列主要解决应用耦合、异步消息、流量削锋等问题，具有高...

2021-09-30 11:29:46 1290

转载 Apache Flink 在汽车之家的应用与实践

一、背景及现状1. 第一阶段在 2019 年之前，汽车之家的大部分实时业务都是运行在 Storm 之上的。Storm 作为早期主流的实时计算引擎，凭借简单的 Spout 和 Bolt 编程...

2021-09-29 09:00:00 852

原创 ASM 与 Presto 动态代码生成简介

代码生成是很多计算引擎中常用的执行优化技术，比如我们熟悉的 Apache Spark 和 Presto 在表达式等地方就使用到代码生成技术。这两个计算引擎虽然都用到了代码生成技术，但是实现...

2021-09-28 12:03:00 1309

原创 Apache Kafka 3.0.0 稳定版发布，有哪些值得关心的变化？

Apache Kafka 3.0 于2021年9月21日正式发布。本文将介绍这个版本的新功能。以下文章翻译自《What's New in Apache Kafka 3.0.0》。我很高兴...

2021-09-24 11:57:08 4966

原创 Flink在bilibili的优化与实践

导读：本文主要介绍Flink实时计算在bilibili的优化，将从以下四个方面展开：1、Flink-connector稳定性优化2、Flink sql优化3、Flink-runtime优...

2021-09-23 09:00:00 1766

转载当一个合格的 Flink Boy 有啥可难的

这几年，Flink 作为备受瞩目的新一代开源大数据计算引擎，已成为 Apache 基金会和 GitHub 最为活跃的顶级项目之一。它在电商领域的应用尤为广泛，就拿天猫“双 11” ，这种一...

2021-09-23 09:00:00 1126

转载京东 ClickHouse 高可用实践

导读：京东OLAP采取ClickHouse为主Doris为辅的策略，有3000台服务器，每天亿次查询万亿条数据写入，广泛服务于各个应用场景，经过历次大促考验，提供了稳定的服务。本文介绍了C...

2021-09-22 09:00:00 1402 2

转载 LinkedIn 是如何将 Hadoop YARN 集群扩展到超过一万个节点的

在 LinkedIn，我们使用 Hadoop 作为大数据分析和机器学习的基础组件。随着数据量呈指数级增长，并且公司在机器学习和数据科学方面进行了大量投资，我们的集群规模每年都在翻倍，以匹配...

2021-09-21 21:30:00 654

转载 CPU 和 GPU - 异构计算的演进与发展

世界上大多数事物的发展规律是相似的，在最开始往往都会出现相对通用的方案解决绝大多数的问题，随后会出现为某一场景专门设计的解决方案，这些解决方案不能解决通用的问题，但是在某些具体的领域会有极...

2021-09-19 09:55:32 2015

原创取代数仓！就在刚刚，公司宣布1年内完成向数据中台的迁移…

提起业务流量，除了全民抢票平台 12306，当数阿里最有发言权。上到双十一千亿级流量洪峰，下到日均百万、千万交易量的平台，每个业务模块背后的高并发架构理念，无处不在。成熟的架构设计只是其一...

2021-09-17 09:00:00 247

转载基于 Kubernetes 构建多集群的流水线

基于Kubefed的多集群管理实践多集群场景主要分以下几个方面：1）高可用低延时：应用部署到不同的集群去做高可用2）容灾备份：特别是针对于数据库这类的应用在a集群对外提供服务的同时给b集...

2021-09-16 09:00:00 614

原创关于数仓搭建，我有这几条心得...

有人说近几年我们所创造的数据，比之前创造所有数据的总和还要多。看似夸张的说法，却已经在告诉我们，现在是数据的时代。企业在逐渐依赖数据，与数据挂钩的岗位更是水涨船高。现在打算从事大数据领域工...

2021-09-16 09:00:00 386

转载 Flink 在 58 同城的应用与实践

摘要：本文整理自 58 同城实时计算平台负责人冯海涛在 Flink Forward Asia 2020 分享的议题《Flink 在 58同城应用与实践》，内容包括：实时计算平台架实时S...

2021-09-15 17:42:33 250

转载 Presto高性能引擎在美图的实践

导读：本文的主题是Presto高性能引擎在美图的实践，首先将介绍美图在处理ad-hoc场景下为何选择Presto，其次我们如何通过外部组件对Presto高可用与稳定性的增强。然后介绍在美图...

2021-09-14 09:00:00 559

转载阿里云IoT工业数据上云优化实践

导读：工业互联网技术，是物联网技术、云边协同、数据库、实时计算等领域的综合应用场景。本文会从工程实践角度，讲述智能制造数字化赋能转型的角度，并结合智能制造转型应用案例，端到端地讲述阿里云I...

2021-09-13 09:14:30 1043

转载 Meetup No.1 | StarRocks 技术详解

Meetup No.1StarRocks 技术详解时间：2021 年 9 月 16 日，周四 19:00-20:0019:00 - 20:00StarRocks 技术详解赵纯，StarR...

2021-09-13 09:14:30 1518

转载 Magnet：即将随 Apache Spark 3.2 发布的高性能外部 Shuffle 服务

在 LinkedIn，我们非常依赖离线数据分析来进行数据驱动的决策。多年来，Apache Spark 已经成为 LinkedIn 的主要计算引擎，以满足这些数据需求。凭借其独特的功能，Sp...

2021-09-12 21:11:56 802

转载浅谈网易大数据平台下的数据质量

大数据平台的核心理念是构建于业务之上，用数据为业务创造价值。大数据平台的搭建之初，优先满足业务的使用需求，数据质量往往是被忽视的一环。但随着业务的逐渐稳定，数据质量越来越被人们所重视。千里...

2021-09-09 09:01:04 479

转载千万级流量压测在京东的技术变革

导读压测是目前科技企业及传统企业进行系统容量评估、容量规划的最佳实践方式，本文将基于京东ForceBot平台在大促(京东618、京东双11)备战中的实践历程，给大家分享平台在压测方面的技术...

2021-09-08 09:00:00 675

转载边缘计算在网易的探索实践

导读：随着物联网的发展，网易内部万物互联的需求井喷式爆发。边缘计算借助本地网关的计算能力，无延时采集处理数据，云边协同，缩短控制链路，告别设备“断网即失控”的尴尬。目前边缘计算已落地网易智...

2021-09-07 09:00:00 282

转载实时数仓在有赞的实践

作者：小君部门：技术中台/数据中台前言随着实时技术的不断发展和商家实时应用场景的不断丰富，有赞在实时数仓建设方面做了大量的尝试和实践。本文主要分享有赞在建设实时数仓过程中所沉淀的经验，...

2021-09-06 09:00:00 388

原创 Uber 是如何减少大数据平台的成本

随着 Uber 业务的扩张，为其提供支持的基础数据呈指数级增长，因此处理成本也越来越高。当大数据成为我们最大的运营开支之一时，我们开始了一项降低数据平台成本的举措，该计划将挑战分为三部分：...

2021-09-05 20:32:55 402

转载 Apache Flink 1.14 新特性介绍

摘要：本文由社区志愿者陈政羽整理，内容源自阿里巴巴技术专家宋辛童 (五藏) 在 8 月 7 日线上 Flink Meetup 分享的《Flink 1.14 新特性预览》。主要内容为：简介流...

2021-09-03 09:00:00 613

转载大数据先驱Cloudera拥抱云计算，探索后Hadoop时代的下一代数据平台

未来十年，企业数据管理模式将如何进化？Cloudera 的答案是 — 企业数据云。在数据爆炸时代“掘金”数字正在“吞噬”世界。过去的十几年里，我们进入了一个数据爆炸、信息过载的时代。数据规...

2021-09-02 09:00:00 288

转载配运基础数据缓存瘦身实践

导读通过redis scan命令实现对字典数据的遍历，从而对得到的数据进行处理；介绍了redis字典的几种状态：扩容后，缩容后，rehashing；探究scan命令的底层原理，如何保证字典...

2021-09-01 09:00:00 347

转载还在手动分库分表？快用 ShardingSphere 架构，真香！！

“ShardingSphere 大大简化了分库分表的开发和维护工作，对于业务的快速上线起到了非常大的支撑作用，保守估计 ShardingSphere 至少为我们节省了 4 个月的研发成本。...

2021-09-01 09:00:00 538

转载 Presto 全新的 Parquet Writer 介绍

随着越来越多的公司广泛部署 Presto，Presto 不仅用于查询，还用于数据摄取和 ETL 作业。所有很有必要提高 Presto 文件写入的性能，尤其是流行的列文件格式，如 Parqu...

2021-08-31 09:00:00 889

转载跨越速运 x DorisDB：统一查询引擎，强悍性能带来极速体验

跨越速运集团有限公司创建于2007年，目前服务网点超过3000家，覆盖城市500余个，是中国物流服务行业独角兽企业。跨越集团大数据中心负责全集团所有数据平台组件的建设和维护，支撑20余条核...

2021-08-30 18:23:00 265

转载企业级数据中台的建设方法、架构和技术栈

多数企业都意识到数据的重要性，都希望利用数据来驱动业务发展。但经常会听到这样一句话：“我们企业现在业务都还没做起来，连数据都没有，还不到考虑数据利用的时候。”这句话在某种程度上代表了一部分...

2021-08-28 09:00:00 1018

转载美团外卖实时数仓建设实践

本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是：一个通用的实时生产平台跟一个通用交互...

2021-08-27 09:00:00 530

转载离线计算平台在汽车之家的演进之路

本次的分享内容分成四个部分：1.汽车之家离线计算平台现状2.平台构建过程中遇到的问题3.基于构建过程中问题的解决方案4.离线计算平台未来规划▌汽车之家离线计算平台现状1.汽车之家离线计算...

2021-08-26 19:59:05 286

转载 Spark吐血整理，学习与面试收藏这篇就够了！

本文目录：一、Spark 基础二、Spark Core三、Spark SQL四、Spark Streaming五、Structured Streaming六、Spark 两种核心 Shuf...

2021-08-25 12:40:00 2003 1

转载数据治理与安全在各大厂的实践探索

2021年8月28日，DataFunSummit：数据治理与安全在线峰会将如约而至。在数据治理与数据安全越来越被国家重视的背景下，我们特组织了本次峰会，以期提升大家对数据治理与数据安全的认...

2021-08-25 12:40:00 271

转载避坑指南：Kafka集群快速扩容的方案总结

什么是数据迁移Apache Kafka 对于数据迁移的官方说法是分区重分配。即重新分配分区在集群的分布情况。官方提供了kafka-reassign-partitions.sh脚本来执行分区...

2021-08-24 09:00:00 490

转载 Redis主从握手流程，你真的了解了吗？

本文文末有赠书彩蛋，赠书9本，要看到最后哦~Redis是开源的key-value存储系统，可作为数据库、缓存、消息组件。Redis的作者是Salvatore Sanfilippo（网名为a...

2021-08-23 12:40:55 264

转载 Apache Hadoop 基础设施容器化在 Uber 的实践

大数据厂长备注：以下的我们均代表 Uber 的 Hadoop 运维团队。介绍随着 Uber 业务的增长，Uber 公司在 5 年内将 Apache Hadoop（本文简称为“Hadoop”...

2021-08-22 20:54:00 451

WeCenter 3.2.2

WeCenter 是一款开源知识型的社交化问答社区程序，专注于社区内容的整理、归类和检索，并通过连接微信公众平台，移动APP进行内容分发。

2018-09-13

HBase在不同版本（1.x, 2.x, 3.0）中针对不同类型的硬件（以IO为例，HDD/SATA-SSD/PCIe-SSD/Cloud）和场景（single/batch, get/scan）做了（即将做）各种不同的优化，这些优化都有哪些？如何针对自己的生产业务和硬件环境选择和使用合适的版本/功能？在生产环境可能出现各种问题，而监控系统是发现并解决问题的关键。目前HBase提供了大量的metrics用于监控，其中有哪些是要特别关注的？线上不同类型的问题应该重点查看哪些metrics来定位问题？如何结合metrics和客户端／服务端日志快速定位问题？

2018-08-13

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构，以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

HBase在贝壳找房的应用实践

介绍贝壳基于hbase在多维分析（kylin）,楼盘字典等核心项目的应用，并分享在实践过程中遇到的问题和性能优化经验。

2018-08-13

Scala Cheat Sheet

本速查表可以用于快速地查找Scala语法结构。Licensed by Brendan O’Connor under a CC-BY-SA 3.0 license.

2018-07-04

Apache Hive Functions Cheat Sheet

How to create and use Hive Functions, Listing of Built-In Functions that are supported in Hive

2018-07-04

Apache Spark Cheat Sheet

Apache Spark has become the engine to enhance many of the capabilities of the ever-present Apache Hadoop environment. For Big Data, Apache Spark meets a lot of needs and runs natively on Apache Hadoop’s YARN. By running Apache Spark in your Apache Hadoop environment, you gain all the security, governance, and scalability inherent to that platform. Apache Spark is also extremely well integrated with Apache Hive and gains access to all your Apache Hadoop tables utilizing integrated security.

2018-07-04

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part1部分。 spark-summit-north-america-2018-06 全部 PPT -part1部分

2018-06-19

spark-summit-north-america-2018-06 全部 PPT -part2

spark-summit-north-america-2018-06全部PPT，下载。spark-summit-north-america-2018-06

2018-06-17

A Deep Dive into Stateful Stream Processing in Structured Streaming

A Deep Dive into Stateful Stream Processing in Structured Streaming A Deep Dive into Stateful Stream Processing in Structured Streaming

2018-06-17

Implementing AutoML Techniques at Salesforce Scale

Implementing AutoML Techniques at Salesforce Scale,Implementing AutoML Techniques at Salesforce Scale

2018-06-17

Using AI to Deliver a Device as a Service

Using AI to Deliver a Device as a Service,Using AI to Deliver a Device as a Service

2018-06-17

Foundations of streaming SQL

Covering ideas from across the Apache Beam, Apache Calcite, Apache Kafka, and Apache Flink communities, with thoughts and contributions from Julian Hyde, Fabian Hueske, Shaoxuan Wang, Kenn Knowles, Ben Chambers, Reuven Lax, Mingmin Xu, James Xu, Martin Kleppmann, Jay Kreps and many more, not to mention that whole database community thing...

2018-06-15

Deep Dive into Spark SQL with Advanced Performance Tuning

Spark SQL is a highly scalable and efficient relational processing engine with ease-to-use APIs and mid-query fault tolerance. It is a core module of Apache Spark. Spark SQL can process, integrate and analyze the data from diverse data sources (e.g., Hive, Cassandra, Kafka and Oracle) and file formats (e.g., Parquet, ORC, CSV, and JSON). This talk will dive into the technical details of SparkSQL spanning the entire lifecycle of a query execution. The audience will get a deeper understanding of Spark SQL and understand how to tune Spark SQL performance.

2018-06-11

HBase-The Definitive Guide-Second Edition-Early Release.pdf

If you’re looking for a scalable storage solution to accommodate a virtually endless amount of data, this updated edition shows you how Apache HBase can meet your needs. Modeled after Google’s BigTable architecture, HBase scales to billions of rows and millions of columns, while ensuring that write and read performance remain constant. Fully revised for HBase 1.0, this second edition brings you up to speed on the new HBase client API, as well as security features and new case studies that demonstrate HBase use in the real world. Whether you just started to evaluate this non-relational database, or plan to put it into practice right away, this book has your back. Launch into basic, advanced, and administrative features of HBase’s new client-facing API Use new classes to integrate HBase with Hadoop’s MapReduce framework Explore HBase’s architecture, including the storage format, write-ahead log, and background processes Dive into advanced usage, such extended client and server options Learn cluster sizing, tuning, and monitoring best practices Design schemas, copy tables, import bulk data, decommission nodes, and other tasks Go deeper into HBase security, including Kerberos and encryption at rest

2018-05-23

QCon北京2018－《RandonDb新一代分布式关系型数据库》－张雁飞.pdf

RadonDB ►可扩展 ►高可用 ►强一致 ►易部署 ►MyNewSQL

2018-05-16

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

区块链是在点对点网络中对交易具有防篡改功能的共享数据账本，Hyperledger fabric是一个比较知名的开源区块链框架，其中作为分布式系统的核心问题就是共识算法以及共识算法的效率问题。如何既保证这个共识算法能让参与区块链的联盟各方都认可它的安全可信，又能提高联盟成员间的共识效率就是一个所有人都关注的重要问题，这里我们将会介绍一种优化的bft共识算法的设计和使用方式。对于区块链服务的使用者，数据安全性是一个非常重要的问题，例如同态加密，零知识证明和国密算法等，我们会介绍这些高级功能特性，讲解这些特性的原理，以及介绍华为提供的这些特性支持中接口是怎么使用，还有通过代码示例演示怎么使用这些高级特性，让大家对区块链服务的基础和基于它的一些高级功能能有初步认识到基本实践的能力。

2018-05-16

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

有一期《奇葩说》，老罗说跨界很重要，实在想不到跨什么，就跨界去学演讲吧。他给的道理是影响力。我给的道理是演讲能从根本上提升你的软实力和硬实力。这次分享，我会用我的从工程师到专家工程师的亲身经历作为案例，从沟通力，学习力，思考力，强迫力，告诉大家，用怎样的钥匙才能打开这扇门。希望听众能收获并践行，让自己的职业生涯更进一步。

2018-05-16

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Oracle区块链云服务基于开源的Hyperledger Fabric软件打造，是一个与其他高性能Oracle云服务相集成，且预先集成了Oracle SaaS和Oracle内部部署应用的开放的API式解决方案，能够与任何系统进行定制化整合。

2018-05-16

Apache iceberg：Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

2020-02-23

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Hadoop YARN is the modern distributed operating system for big data applications. It morphed the Hadoop compute layer to be a common resource-management platform that can host a wide variety of applications. Many organizations leverage YARN in building their applications on top of Hadoop without repeatedly worrying about resource management, isolation, multitenancy issues, etc. The Hadoop Distributed File System (HDFS) is the primary data storage system used by Hadoop applications. It employs a NameNode and DataNode architecture to implement a distributed file system that provides high-performance access to data across highly scalable Hadoop clusters. Wangda Tan and Wei-Chiu Chuang the current status of Apache Hadoop 3.x—how it’s used today in deployments large and small, and they dive into the exciting present and future of Hadoop 3.x—features that further strengthen Hadoop as the primary resource-management platform and the storage system for enterprise data centers. They explore the current status and the future promise of features and initiatives for both YARN and HDFS of Hadoop 3.×. For YARN 3.x, there is powerful container placement, global scheduling, support for machine learning (Spark) and deep learning (TensorFlow) workloads through GPU and field-programmable gate array (FPGA) scheduling and isolation support, extreme scale with YARN federation, containerized apps on YARN, support for long-running services (alongside applications) natively without any changes, seamless application/services upgrades, powerful scheduling features like application priorities, intra-queue preemption across applications, and operational enhancements including insights through Timeline Service v2, a new web UI, better queue management, etc. Also, HDFS 3.0 announced GA for erasure coding, which doubles the storage efficiency of data and thus reduces the cost of storage for enterprise use cases. HDFS added support for multiple standby NameNodes for better availability. For better reliability of metadata and easier operations, Journal nodes have been enhanced to sync the edit log segments to protect against rolling failures. Disk balancing within a DataNode was another important feature added to ensure disks are evenly utilized in a DataNode, which also ensures better aggregate throughput and prevents from lopsided utilization if new disks are added or replaced in a DataNode. The HDFS team is currently driving the Ozone initiative, which lays the foundation of the next generation of storage architecture for HDFS where data blocks are organized in storage containers for higher scale and handling of small objects in HDFS. The Ozone project also includes an object store implementation to support new use cases. And you’ll leave with all the knowledge of how to upgrade painlessly from 2.x to 3.x to get all the benefits.

2020-02-04

Apache Doris (Incubating) 原理与实践.pdf

Doris（原百度 Palo）是一款基于大规模并行处理技术的分布式 SQL 数据库，由百度在 2017 年开源，2018 年 8 月进入 Apache 孵化器。

2019-12-10

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域，Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎，另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据，单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署，因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果，介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019 补充PPT，解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展，以及在现实世界中部署人工智能的最佳实践。

2019-11-03

Spark+AI Summit Europe 2019_iteblog.zip.002

由于文件过大，分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展，以及在现实世界中部署人工智能的最佳实践。

2019-11-01

Spark+AI Summit Europe 2019_iteblog.zip.001

2019-11-01

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

数据工程师的纠结与运维的凌乱 • Delta Lake基本原理 • Delta 架构 • Delta 架构的特性 • Delta 架构的经典案例 & Demo • Delta Lake 社区

2019-10-28

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山（San Francisco）进行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。作为大数据领域的顶级会议，Spark+AI Summit 2019 吸引了全球大量技术大咖参会，而且 Spark+AI Summit 越做越大，本次会议议题快接近200多个。详情：https://www.iteblog.com/archives/2431.html

2019-09-21

From Stream Processor to a Unified Data Processing System

The Apache Flink community has pushed (and continues to push) the boundary for Stream Processing over the last years, following the understanding that Stream Processing is unifying paradigm to build data processing applications, beyond real-time analytics. The latest major effort in the Flink community is nothing less then re-architecting the API and runtime stack, with the goal to naturally support the spectrum of analytics and data-driven applications, to unify the APIs for batch and streaming (Table API and DataStream API), and to build a streaming runtime that is not only state-of-the-art in stream processing, but also in batch processing performance. In this keynote, we give an overview of the goals and technology behind the above effort, and look at the adoption of Apache Flink for Stream Processing and "beyond streaming" use cases, as well as various efforts in the community to support the growth in users, applications, and ecosystem.

2019-04-20

Apache Spark 2.4 and beyond

Apache Spark 2.4 comes packed with a lot of new functionalities and improvements, including the new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support, and more. Xiao Li and We

2019-04-14

Flink社区专刊S2-重新定义计算

阿里巴巴最新一期Flink电子月刊《重新定义计算：Apache Flink 实践》正式发布，该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和Flink Forward China峰会上的精彩演讲内容，希望对大家有所帮助。详情参考：https://mp.weixin.qq.com/s/HS9qoGTKzyd46VgjEpNiwg

2019-04-11

从MPP数仓迁移至Spark：案例与最佳实践分享

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中，我们遇到了很多的预料之外的问题，如字符集问题，数字进位问题，各种OOM等等，更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中，我们做了很多的实践，贡献给了社区很多的反馈，也解决了很多的bug。即便对于Spark当前不能处理的场景，比如recurisve query，也有了一些可行的探索。此外，我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中，我们会深入迁移的关键步骤，并分享踩过的一些坑，最后会介绍我们的自动化工具，如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。下面是PPT原文：关注 Hadoop技术博文并回复 ebay_spark 获取本文PPT。

2019-03-31

2018 Apache HBase 技术实战专刊

本专刊由中国HBase技术社区整理，一共156页，包含HBase案例、组件、技术、平台等方面的介绍，详情参见https://www.iteblog.com/archives/2496.html

2019-01-07

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

我们都知道，Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook，单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据；而且 shuffle reads 也是一种低效的操作，这会大大延长作业的整体执行时间，并且消耗大量的系统资源。为了提高 shuffle 的性能并提高资源利用率，Facebook 开发了 Spark-optimized Shuffle (SOS) 。这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了，作业整体的 I/O 提升了两倍，计算效率提高10％。值得高兴的是，这项技术 Facebook 打算共享给社区。本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

WeCenter 3.2.2

HBase in Practise: 性能、监控和问题排查

HBase Procedure V2介绍

HBase在贝壳找房的应用实践

Scala Cheat Sheet

Apache Hive Functions Cheat Sheet

Apache Spark Cheat Sheet

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part2

A Deep Dive into Stateful Stream Processing in Structured Streaming

Implementing AutoML Techniques at Salesforce Scale

Using AI to Deliver a Device as a Service

Foundations of streaming SQL

Deep Dive into Spark SQL with Advanced Performance Tuning

HBase-The Definitive Guide-Second Edition-Early Release.pdf

QCon北京2018－《RandonDb新一代分布式关系型数据库》－张雁飞.pdf

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Apache iceberg：Netflix 数据仓库的基石

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Doris (Incubating) 原理与实践.pdf

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019_iteblog.zip.002

Spark+AI Summit Europe 2019_iteblog.zip.001

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

Apache Spark 3.0, Koalas, Delta Lake 最新进展

SPARK + AI SUMMIT 2019 全部 PPT

From Stream Processor to a Unified Data Processing System

Apache Spark 2.4 and beyond

Flink社区专刊S2-重新定义计算

从MPP数仓迁移至Spark：案例与最佳实践分享

2018 Apache HBase 技术实战专刊

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

Apache Spark Shuffle I/O 在 Facebook 的优化

不仅仅是流计算：Apache Flink实践

Spark AI Summit Europe 2018 全部PPT - part1

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

空空如也