过往记忆-CSDN博客

原创 RaptorX: 将 Presto 性能提升十倍

存储计算分离是整个行业的发展趋势，这种架构的存储和计算可以各自独立发展，它帮助云提供商降低成本。Presto 原生就支持这样的架构，数据可以从 Presto 服务器之外的远程存储节点传输过...

2021-12-05 20:40:43 3141 1

转载面试必备：一文理解 Java 内存模型

01导言多线程、高并发问题相信是每一位从事Java研发工作的程序员都不可回避的一个重要话题。从启动一个线程，到使用volatile、synchronized、final关键字，到使用wai...

2021-12-04 19:23:44 978

转载 Kafka那么成熟，为什么我们还需要Pulsar？（文末送书）

随着互联网的高速发展，用户规模与业务并发量开始急剧增加，海量的请求需要接收和存储，业务需要中间件来实现削峰填谷；业务也在不断发展，企业内部的系统数量也在不断地增长，不同语言开发出来的系统需...

2021-12-03 12:30:00 214

转载精选30个炫酷的数据可视化大屏(含源码)，拿走就用！

大屏数据可视化是以大屏为主要展示载体的数据可视化设计。“大面积、炫酷动效、丰富色彩”，大屏易在观感上给人留下震撼印象，便于营造某些独特氛围、打造仪式感。原本看不见的数据可视化后，便能调动人...

2021-12-02 19:12:25 2642 23

转载去哪儿网BI平台建设演进与实践

作者介绍张杰，2015年1月加入去哪儿网，致力于数据为业务赋能，前期主要做离线、实时数仓建设，后期主要做数据平台建设，目前是数据建设-数据平台组负责人。杜峻辰，2018年11月加入去哪儿网...

2021-12-01 11:33:10 1969

转载一文掌握 Redis 线程模型

作者：vivo互联网服务器团队-Wang Shaodong一、概述众所周知，Redis是一个高性能的数据存储框架，在高并发的系统设计中，Redis也是一个比较关键的组件，是我们提升系统性能...

2021-11-30 09:00:00 1511

转载基于Flink建设流批一体实时数仓

双十一流量洪峰已经过去，身为大数据工程师的你，还在苦学Spark、Hadoop、Storm，却还没搞过Flink？每年双十一，阿里都在Flink实时计算技术的驱动下全程保持了“如丝...

2021-11-30 09:00:00 1894

转载 ClickHouse 在有赞的实践

分享嘉宾：陈琦（前) 有赞，编辑整理：刘鹏鹏滴滴出行，出品平台：DataFunTalk导读：有赞是什么？有赞是一家商家服务公司。致力于成为商家服务领域里最被信任的引领者；并持续做一个En...

2021-11-29 09:00:00 1345

转载 Presto Iceberg 数据源 + Alluxio 使用以及最新进展介绍

本文来自 Alluxio 在2021年11月27日举办的《【Iceberg + Alluxio】助力加速数据通道》在线会议。分享者为王北南和shouwei chen。本次分享主要分两部分...

2021-11-28 21:11:27 2684

转载 Elasticsearch写入原理，一看便知！

“ 随着业务量的增加，越来越多的场景都会面对海量数据查询的情况。Elasticsearch 作为主流的搜索引擎，以其良好的扩展性，优越查询响应，被各个企业争相使用。Elasticsearc...

2021-11-27 20:48:32 1527

转载【数据治理大赛作品分享】网易传媒数据管治建设实践

导读：本篇是首届网易数据治理大赛一等奖的作品分享，来自于网易传媒大数据团队。传媒的数据管治实践解决了资源使用负载高、不可控的痛点，搭建了数据资产登记和成本运营体系，保障了数据生产长期稳定，...

2021-11-26 09:00:00 390

转载云计算最佳实践系列之 K8s集群搭建+容器编排

身为让容器应用实现大规模工业生产的一大功臣，过去几年，Kubernetes 势头迅猛，BAT、京东、美团、字节都走上了全域容器化部署以及云原生架构的康庄大道。而作为支撑阿里万亿级应用背后...

2021-11-26 09:00:00 1300

转载 ElasticSearch 索引设计指南

作者介绍许睿哲2020年12月加入去哪儿网-数据平台团队，目前主要负责公司的 esaas 云服务与实时日志 ELK 平台的开发、维护与优化。主导参与了公司的 ES 架构升级迁移与 ES 平...

2021-11-25 09:00:00 2870

转载 Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更...

2021-11-24 09:00:00 2536 1

转载 vivo统一告警平台建设与实践

一、背景一套监控系统检测和告警是密不可分的，检测用来发现异常，告警用来将问题信息发送给相应的人。vivo监控系统1.0时代各个监控系统分别维护一套计算、存储、检测、告警收敛逻辑，这种架构下...

2021-11-23 09:00:00 342

转载数仓建设规范指南

本文将全面讲解数仓建设规范，从数据模型规范，到数仓公共规范，数仓各层规范，最后到数仓命名规范，包括表命名，指标字段命名规范等！目录：一、数据模型架构原则数仓分层原则主题域划分原则数据模型设...

2021-11-22 09:00:00 808

原创一文理解 Presto 两种 JOIN 算法实现

我们在《Presto 中支持的七种 Join 类型》这篇文章中介绍了 Presto 可用的 JOIN 操作的基础知识，以及如何在 SQL 查询中使用它们。有了这些知识，我们现在可以了解...

2021-11-21 20:04:27 3372

转载 Apache Hudi 在 B 站构建实时数据湖的实践

摘要：本文作者喻兆靖，介绍了为什么 B 站选择 Flink + Hudi 的数据湖技术方案，以及针对其做出的优化。主要内容为：传统离线数仓痛点数据湖技术方案Hudi 任务稳定性保障数据入湖...

2021-11-20 21:38:37 633

转载 Chrome 插件特性及实战场景案例分析

一、前言提起Chrome扩展插件(Chrome Extension)，每个人的浏览器中或多或少都安装了几个插件，像一键翻译、广告屏蔽、录屏等等，通过使用这些插件，可以有效的提高我们的工作效...

2021-11-19 09:00:00 1315

转载百度智能云大数据平台技术讲解及落地实战

在今天数字经济的浪潮中，产业充分认识到要做好数字化、智能化，第一件要做的事情即是健全的企业大数据能力。在数据量指数增长、数据类型繁杂多样、数据应用场景多变、数据分析实时性要求高的多重挑战下...

2021-11-18 20:30:34 1522

转载 Elasticsearch 脚本安全使用指南

1、关于 Elasticsearch 脚本实战问题最近星球群里讨论了脚本的使用。当看到复杂脚本的时候，我的第一反应是：类似复杂查询要搞这么复杂吗？能否前置让 ingest 预处理多花时间，...

2021-11-18 20:30:34 789

转载基于 Flink 构建全场景多维度实时计算数仓

双十一流量洪峰将至，身为大数据工程师的你，还在苦学Spark、Hadoop、Storm，却还没搞过Flink？去年双十一，阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑...

2021-11-16 09:00:00 1592

转载 Flink深度解读--附实现原理细节

导语|大数据计算分为离线计算和实时计算，其中离线计算就是我们通常说的批计算，代表技术是Hadoop MapReduce、Hive等；实时计算也被称作流计算，代表技术是Storm、Spa...

2021-11-16 09:00:00 2198

原创 Presto on Spark：通过 Spark 来扩展 Presto

概述Presto 最初设计是对数据仓库中的数据运行交互式查询，但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎，用于交互式和批处理工作负载，数据湖上的流行工作负载包括：•...

2021-11-14 20:52:09 2148

转载 OPPO大数据计算集群资源调度架构演进

1 背景随着公司这两年业务的迅速扩增，业务数据量和数据处理需求也是呈几何式增长，这对底层的存储和计算等基础设施建设提出了较高的要求。本文围绕计算集群资源使用和资源调度展开，将带大家了解集群...

2021-11-12 09:00:00 797

原创 Presto 中支持的七种 Join 类型

Join 操作是最重要和最昂贵的 SQL 操作之一，需要数据库工程师深入理解才能编写高效的 SQL 查询。从数据库工程师的角度来看，了解 JOIN 操作的工作原理有助于他们优化 JOIN ...

2021-11-11 09:00:00 5417

转载 Redis 大集群扩容性能优化实践

作者：vivo互联网数据库团队—Yuan Jianwei一、背景在现网环境，一些使用Redis集群的业务随着业务量的上涨，往往需要进行节点扩容操作。之前有了解到运维同学对一些节点数比较大的...

2021-11-10 09:00:00 522

转载英特尔陈葆立：以多样化的产品方案，构建数据中心强大生态

数字时代的今天，企业更加迫切的希望通过创新来提高自身的竞争力，获得可持续性发展。面对云计算、AI、5G、物联网等新技术，如果在数据中心、云、边端等不同的环境中开发应用，提高业务响应能力，成...

2021-11-10 09:00:00 940

转载 Apache Flink 在双十一流量洪峰下的最佳实践

2021-11-09 09:00:00 1053

转载 Apache Doris 和 ClickHouse 的选型比较

背景介绍Apache Doris是由百度贡献的开源MPP分析型数据库产品，亚秒级查询响应时间，支持实时数据分析；分布式架构简洁，易于运维，可以支持10PB以上的超大数据集；可以满足多种数据...

2021-11-08 09:00:00 4300

转载 ClickHouse 在爱奇艺实时数仓的应用

众所周知，爱奇艺拥有海量视频，在视频生产过程中产生的上千QPS的实时数据、T级别的数据存储。要支持这样的数据进行即席查询和多个大表的JOIN，是爱奇艺视频生产团队大数据应用的难点。具体来说...

2021-11-07 19:50:20 1406

转载 Hudi + Flink 实时数仓在顺丰的实践

摘要：本文作者刘杰，介绍了顺丰科技数仓的架构，趟过的一些问题、使用 Hudi 来优化整个 job 状态的实践细节，以及未来的一些规划。主要内容为：数仓架构Hudi 代码躺过的坑状态优化未来...

2021-11-05 09:00:00 1359

转载 Snowflake & Delta Lake两大新型数仓对比分析

Snowflake & Delta Lake 代表了当前业内最先进的两种数仓形态，并且都得到了市场上用户的高度认可。1概述数据分析从上世纪 80 年代兴起以来，大体经历了企业数仓（...

2021-11-04 09:38:39 1343

转载同程旅行Hadoop集群跨机房迁移实践

本文作者：郭飞。现任同程旅行技术专家。Apache Hadoop、Hive、Sparkcontributor背景随着同程旅行业务和数据规模越来越大，原有的机房不足以支撑未来几年的扩容...

2021-11-03 09:26:54 1386

转载从 Spark 做批处理到 Flink 做流批一体

摘要：本⽂主要内容为：为什么要做流批一体？当前行业已有的解决方案和现状，优势和劣势探索生产实践场景的经验Shuflle Service 在 Spark 和 Flink 上的对比，以及 Fl...

2021-11-02 09:00:00 764

转载 Apache Kafka 在 vivo 的实战

作者：vivo互联网服务器团队-Yang Yijun一、Kafka应用本文主要总结当Kafka集群流量达到万亿级记录/天或者十万亿级记录/天甚至更高后，我们需要具备哪些能力才能保障集...

2021-11-01 20:04:59 1721 3

转载大数据开发必看资料--不断更新

1，各大厂ppt都是实战案例，价值很高2，csdn积分下载文件来自群友的需求，同行都在关心啥3，获取方式加我好友：fangzhen0219 备注【资料】 ...

2021-10-31 21:23:34 831

转载一文掌握 Kafka 集群快速扩容的方案

什么是数据迁移Apache Kafka 对于数据迁移的官方说法是分区重分配。即重新分配分区在集群的分布情况。官方提供了kafka-reassign-partitions.sh脚本来执行分区...

2021-10-30 22:01:00 802

转载一文理解 Kafka 的 Controller 领导选举！

导语|Controller作为Apache Kafka的核心组件，本文将从背景、原理以及源码与监控等方面来深入剖析Kafka Controller，希望带领大家去了解Controlle...

2021-10-29 09:00:00 1571 1

WeCenter 3.2.2

WeCenter 是一款开源知识型的社交化问答社区程序，专注于社区内容的整理、归类和检索，并通过连接微信公众平台，移动APP进行内容分发。

2018-09-13

HBase在不同版本（1.x, 2.x, 3.0）中针对不同类型的硬件（以IO为例，HDD/SATA-SSD/PCIe-SSD/Cloud）和场景（single/batch, get/scan）做了（即将做）各种不同的优化，这些优化都有哪些？如何针对自己的生产业务和硬件环境选择和使用合适的版本/功能？在生产环境可能出现各种问题，而监控系统是发现并解决问题的关键。目前HBase提供了大量的metrics用于监控，其中有哪些是要特别关注的？线上不同类型的问题应该重点查看哪些metrics来定位问题？如何结合metrics和客户端／服务端日志快速定位问题？

2018-08-13

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构，以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

HBase在贝壳找房的应用实践

介绍贝壳基于hbase在多维分析（kylin）,楼盘字典等核心项目的应用，并分享在实践过程中遇到的问题和性能优化经验。

2018-08-13

Scala Cheat Sheet

本速查表可以用于快速地查找Scala语法结构。Licensed by Brendan O’Connor under a CC-BY-SA 3.0 license.

2018-07-04

Apache Hive Functions Cheat Sheet

How to create and use Hive Functions, Listing of Built-In Functions that are supported in Hive

2018-07-04

Apache Spark Cheat Sheet

Apache Spark has become the engine to enhance many of the capabilities of the ever-present Apache Hadoop environment. For Big Data, Apache Spark meets a lot of needs and runs natively on Apache Hadoop’s YARN. By running Apache Spark in your Apache Hadoop environment, you gain all the security, governance, and scalability inherent to that platform. Apache Spark is also extremely well integrated with Apache Hive and gains access to all your Apache Hadoop tables utilizing integrated security.

2018-07-04

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part1部分。 spark-summit-north-america-2018-06 全部 PPT -part1部分

2018-06-19

spark-summit-north-america-2018-06 全部 PPT -part2

spark-summit-north-america-2018-06全部PPT，下载。spark-summit-north-america-2018-06

2018-06-17

A Deep Dive into Stateful Stream Processing in Structured Streaming

A Deep Dive into Stateful Stream Processing in Structured Streaming A Deep Dive into Stateful Stream Processing in Structured Streaming

2018-06-17

Implementing AutoML Techniques at Salesforce Scale

Implementing AutoML Techniques at Salesforce Scale,Implementing AutoML Techniques at Salesforce Scale

2018-06-17

Using AI to Deliver a Device as a Service

Using AI to Deliver a Device as a Service,Using AI to Deliver a Device as a Service

2018-06-17

Foundations of streaming SQL

Covering ideas from across the Apache Beam, Apache Calcite, Apache Kafka, and Apache Flink communities, with thoughts and contributions from Julian Hyde, Fabian Hueske, Shaoxuan Wang, Kenn Knowles, Ben Chambers, Reuven Lax, Mingmin Xu, James Xu, Martin Kleppmann, Jay Kreps and many more, not to mention that whole database community thing...

2018-06-15

Deep Dive into Spark SQL with Advanced Performance Tuning

Spark SQL is a highly scalable and efficient relational processing engine with ease-to-use APIs and mid-query fault tolerance. It is a core module of Apache Spark. Spark SQL can process, integrate and analyze the data from diverse data sources (e.g., Hive, Cassandra, Kafka and Oracle) and file formats (e.g., Parquet, ORC, CSV, and JSON). This talk will dive into the technical details of SparkSQL spanning the entire lifecycle of a query execution. The audience will get a deeper understanding of Spark SQL and understand how to tune Spark SQL performance.

2018-06-11

QCon北京2018－《RandonDb新一代分布式关系型数据库》－张雁飞.pdf

RadonDB ►可扩展 ►高可用 ►强一致 ►易部署 ►MyNewSQL

2018-05-16

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

区块链是在点对点网络中对交易具有防篡改功能的共享数据账本，Hyperledger fabric是一个比较知名的开源区块链框架，其中作为分布式系统的核心问题就是共识算法以及共识算法的效率问题。如何既保证这个共识算法能让参与区块链的联盟各方都认可它的安全可信，又能提高联盟成员间的共识效率就是一个所有人都关注的重要问题，这里我们将会介绍一种优化的bft共识算法的设计和使用方式。对于区块链服务的使用者，数据安全性是一个非常重要的问题，例如同态加密，零知识证明和国密算法等，我们会介绍这些高级功能特性，讲解这些特性的原理，以及介绍华为提供的这些特性支持中接口是怎么使用，还有通过代码示例演示怎么使用这些高级特性，让大家对区块链服务的基础和基于它的一些高级功能能有初步认识到基本实践的能力。

2018-05-16

QCon北京2018-强业务驱动的互联网+，技术管理的坑与路--廖雪梅.pdf

作为一名10年的互联网从业者，见证过流量分发、移动互联网等技术为王的时代，也正在经历以技术驱动传统行业改造的互联网+时代。在流量分发的年代，一个算法的优化，可以轻松提高收入，一个首屏加载时间的优化，可以快速提高转化率，那是一个技术为王的时代，我们会对高QPS、更短访问耗时津津乐道。而在互联网+时代，我们用自己引以为豪的技术继续去改造一个个自己并不熟悉的传统行业，突然发现我们做了很多管理系统，类erp系统，只是这些系统比之前复杂很多，我们经常在中间晕头转向，而我们引以为豪的高性能高并发各类技术似乎没有了用武之地。互联网+时代，技术管理者身边充斥这样的声音：后端研发跟你抱怨技术挑战小，没有成长空间；前端小伙伴跟你吐槽做了太多管理系统，想玩各类新技术RN、酷炫的动画都找不到试验田；业务还不会不断告诉你，xx系统的设计方案完全不符合线下场景……在焦躁不安中，甚至开始怀疑，这还是就技术改变世界的时代吗？

2018-05-16

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

有一期《奇葩说》，老罗说跨界很重要，实在想不到跨什么，就跨界去学演讲吧。他给的道理是影响力。我给的道理是演讲能从根本上提升你的软实力和硬实力。这次分享，我会用我的从工程师到专家工程师的亲身经历作为案例，从沟通力，学习力，思考力，强迫力，告诉大家，用怎样的钥匙才能打开这扇门。希望听众能收获并践行，让自己的职业生涯更进一步。

2018-05-16

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Oracle区块链云服务基于开源的Hyperledger Fabric软件打造，是一个与其他高性能Oracle云服务相集成，且预先集成了Oracle SaaS和Oracle内部部署应用的开放的API式解决方案，能够与任何系统进行定制化整合。

2018-05-16

Apache iceberg：Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

2020-02-23

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Hadoop YARN is the modern distributed operating system for big data applications. It morphed the Hadoop compute layer to be a common resource-management platform that can host a wide variety of applications. Many organizations leverage YARN in building their applications on top of Hadoop without repeatedly worrying about resource management, isolation, multitenancy issues, etc. The Hadoop Distributed File System (HDFS) is the primary data storage system used by Hadoop applications. It employs a NameNode and DataNode architecture to implement a distributed file system that provides high-performance access to data across highly scalable Hadoop clusters. Wangda Tan and Wei-Chiu Chuang the current status of Apache Hadoop 3.x—how it’s used today in deployments large and small, and they dive into the exciting present and future of Hadoop 3.x—features that further strengthen Hadoop as the primary resource-management platform and the storage system for enterprise data centers. They explore the current status and the future promise of features and initiatives for both YARN and HDFS of Hadoop 3.×. For YARN 3.x, there is powerful container placement, global scheduling, support for machine learning (Spark) and deep learning (TensorFlow) workloads through GPU and field-programmable gate array (FPGA) scheduling and isolation support, extreme scale with YARN federation, containerized apps on YARN, support for long-running services (alongside applications) natively without any changes, seamless application/services upgrades, powerful scheduling features like application priorities, intra-queue preemption across applications, and operational enhancements including insights through Timeline Service v2, a new web UI, better queue management, etc. Also, HDFS 3.0 announced GA for erasure coding, which doubles the storage efficiency of data and thus reduces the cost of storage for enterprise use cases. HDFS added support for multiple standby NameNodes for better availability. For better reliability of metadata and easier operations, Journal nodes have been enhanced to sync the edit log segments to protect against rolling failures. Disk balancing within a DataNode was another important feature added to ensure disks are evenly utilized in a DataNode, which also ensures better aggregate throughput and prevents from lopsided utilization if new disks are added or replaced in a DataNode. The HDFS team is currently driving the Ozone initiative, which lays the foundation of the next generation of storage architecture for HDFS where data blocks are organized in storage containers for higher scale and handling of small objects in HDFS. The Ozone project also includes an object store implementation to support new use cases. And you’ll leave with all the knowledge of how to upgrade painlessly from 2.x to 3.x to get all the benefits.

2020-02-04

Apache Doris (Incubating) 原理与实践.pdf

Doris（原百度 Palo）是一款基于大规模并行处理技术的分布式 SQL 数据库，由百度在 2017 年开源，2018 年 8 月进入 Apache 孵化器。

2019-12-10

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域，Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎，另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据，单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署，因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果，介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019 补充PPT，解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展，以及在现实世界中部署人工智能的最佳实践。

2019-11-03

Spark+AI Summit Europe 2019_iteblog.zip.002

由于文件过大，分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展，以及在现实世界中部署人工智能的最佳实践。

2019-11-01

Spark+AI Summit Europe 2019_iteblog.zip.001

2019-11-01

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

数据工程师的纠结与运维的凌乱 • Delta Lake基本原理 • Delta 架构 • Delta 架构的特性 • Delta 架构的经典案例 & Demo • Delta Lake 社区

2019-10-28

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山（San Francisco）进行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。作为大数据领域的顶级会议，Spark+AI Summit 2019 吸引了全球大量技术大咖参会，而且 Spark+AI Summit 越做越大，本次会议议题快接近200多个。详情：https://www.iteblog.com/archives/2431.html

2019-09-21

From Stream Processor to a Unified Data Processing System

The Apache Flink community has pushed (and continues to push) the boundary for Stream Processing over the last years, following the understanding that Stream Processing is unifying paradigm to build data processing applications, beyond real-time analytics. The latest major effort in the Flink community is nothing less then re-architecting the API and runtime stack, with the goal to naturally support the spectrum of analytics and data-driven applications, to unify the APIs for batch and streaming (Table API and DataStream API), and to build a streaming runtime that is not only state-of-the-art in stream processing, but also in batch processing performance. In this keynote, we give an overview of the goals and technology behind the above effort, and look at the adoption of Apache Flink for Stream Processing and "beyond streaming" use cases, as well as various efforts in the community to support the growth in users, applications, and ecosystem.

2019-04-20

Apache Spark 2.4 and beyond

Apache Spark 2.4 comes packed with a lot of new functionalities and improvements, including the new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support, and more. Xiao Li and Wenchen Fan offer an overview of the major features and enhancements in Apache Spark 2.4. Along the way, you’ll learn about the design and implementation of V2 of theData Source API and catalog federation in the upcoming Spark release. Then you’ll get the chance to ask all your burning Spark questions.

2019-04-14

Flink社区专刊S2-重新定义计算

阿里巴巴最新一期Flink电子月刊《重新定义计算：Apache Flink 实践》正式发布，该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和Flink Forward China峰会上的精彩演讲内容，希望对大家有所帮助。详情参考：https://mp.weixin.qq.com/s/HS9qoGTKzyd46VgjEpNiwg

2019-04-11

从MPP数仓迁移至Spark：案例与最佳实践分享

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中，我们遇到了很多的预料之外的问题，如字符集问题，数字进位问题，各种OOM等等，更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中，我们做了很多的实践，贡献给了社区很多的反馈，也解决了很多的bug。即便对于Spark当前不能处理的场景，比如recurisve query，也有了一些可行的探索。此外，我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中，我们会深入迁移的关键步骤，并分享踩过的一些坑，最后会介绍我们的自动化工具，如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。下面是PPT原文：关注 Hadoop技术博文并回复 ebay_spark 获取本文PPT。

2019-03-31

2018 Apache HBase 技术实战专刊

本专刊由中国HBase技术社区整理，一共156页，包含HBase案例、组件、技术、平台等方面的介绍，详情参见https://www.iteblog.com/archives/2496.html

2019-01-07

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

我们都知道，Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook，单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据；而且 shuffle reads 也是一种低效的操作，这会大大延长作业的整体执行时间，并且消耗大量的系统资源。为了提高 shuffle 的性能并提高资源利用率，Facebook 开发了 Spark-optimized Shuffle (SOS) 。这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了，作业整体的 I/O 提升了两倍，计算效率提高10％。值得高兴的是，这项技术 Facebook 打算共享给社区。本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

WeCenter 3.2.2

HBase in Practise: 性能、监控和问题排查

HBase Procedure V2介绍

HBase在贝壳找房的应用实践

Scala Cheat Sheet

Apache Hive Functions Cheat Sheet

Apache Spark Cheat Sheet

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part2

A Deep Dive into Stateful Stream Processing in Structured Streaming

Implementing AutoML Techniques at Salesforce Scale

Using AI to Deliver a Device as a Service

Foundations of streaming SQL

Deep Dive into Spark SQL with Advanced Performance Tuning

QCon北京2018－《RandonDb新一代分布式关系型数据库》－张雁飞.pdf

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

QCon北京2018-强业务驱动的互联网+，技术管理的坑与路--廖雪梅.pdf

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Apache iceberg：Netflix 数据仓库的基石

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Doris (Incubating) 原理与实践.pdf

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019_iteblog.zip.002

Spark+AI Summit Europe 2019_iteblog.zip.001

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

Apache Spark 3.0, Koalas, Delta Lake 最新进展

SPARK + AI SUMMIT 2019 全部 PPT

From Stream Processor to a Unified Data Processing System

Apache Spark 2.4 and beyond

Flink社区专刊S2-重新定义计算

从MPP数仓迁移至Spark：案例与最佳实践分享

2018 Apache HBase 技术实战专刊

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

Apache Spark Shuffle I/O 在 Facebook 的优化

不仅仅是流计算：Apache Flink实践

Spark AI Summit Europe 2018 全部PPT - part1

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

空空如也