2020年08月_过往记忆

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 HBase Rowkey 设计指南

为什么Rowkey这么重要RowKey 到底是什么我们常说看一张 HBase 表设计的好不好，就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 R...

2020-08-31 09:00:46 559

转载产业互联网时代不想掉队？鹅厂的这个会你不能错过！

消费互联网战场日渐红海，产业互联网大潮滚滚而来。腾讯作为互联网的巨头，在云计算、人工智能、大数据等领域早已有深厚的技术和实践经验的积累。为了强化产业融合、助力产业数字化升级，腾讯全球数字...

2020-08-30 19:28:34 359

转载 Docker不香吗，为啥还要K8s？

本文先介绍一下 K8s 的基本概念，后面再介绍实践，由浅入深步步为营。关于 K8s 的基本概念我们将会围绕如下七点展开：Docker的管理痛点什么是 K8s？云架构 & 云原生...

2020-08-30 19:28:34 1493

转载开源搜索引擎排名第一，Elasticearch是如何做到的？

一、引言随着移动互联网、物联网、云计算等信息技术蓬勃发展，数据量呈爆炸式增长。如今我们可以轻易得从海量数据里找到想要的信息，离不开搜索引擎技术的帮助。作为开源搜索引擎领域排名第一的 El...

2020-08-29 20:58:00 643

转载当当网买书薅羊毛攻略（附大数据学习用书）

开学季当当网计算机图书大促>>每满100减50 <<满200减100满300减150满400减200不止如此！秉持绝不让大家多花一分钱的精神机械工业出版社华章...

2020-08-29 20:58:00 1823

转载实时数仓在滴滴的实践和落地

桔妹导读：随着滴滴业务的高速发展，业务对于数据时效性的需求越来越高，而伴随着实时技术的不断发展和成熟，滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子，从引擎侧、平台...

2020-08-28 09:14:37 371

转载 PB级大规模Elasticsearch集群运维与调优实践

导语 |腾讯云Elasticsearch 被广泛应用于日志实时分析、结构化数据分析、全文检索等场景中，本文将以情景植入的方式，向大家介绍与腾讯云客户合作过程中遇到的各种典型问题，以及相...

2020-08-27 20:01:00 1472 2

转载 Delta Lake 如何帮助云用户解决数据实时入库问题

嘉宾简介：辛现银，花名辛庸，阿里巴巴计算平台事业部 EMR 技术专家，Apache Hadoop，Apache Spark contributor，对 Hadoop、Spark、Hive...

2020-08-26 08:30:00 378

原创 Delta Lake 第一篇论文发布了

最近，数砖大佬们给 VLDB 投了一篇名为《Delta Lake: High-Performance ACID Table Storage overCloud Object Stores...

2020-08-25 20:20:00 872

转载 NLP高阶攻略，新手莫入！

行业上90%以上的NLP工程师是“不合格的”。我一直坚信AI人才的最大壁垒是创造力，能够持续为变化的业务带来更多的价值。但创造的前提一定是对一个领域的深度理解和广度认知，以及不断对一个事...

2020-08-25 20:20:00 479

转载 eBay Kubernetes集群的存储实践

供稿 |TESS 高文俊&谢文利&沈涛翻译&编辑 | 顾欣怡导读Kubernetes作为eBay内部广泛使用的容器管理平台，承担着巨大的存储功能。本文将从本地存...

2020-08-24 10:00:00 594

转载面试时行云流水仍被拒，人工智能的hr究竟喜欢什么样的求职者？

如果说求职是人生的一道坎，那么面试就是最难翻越的那一块砖。当你经历过大大小小的面试之后，就会发现不同的公司、不同的面试官问的问题都大同小异，因为企业对于挑选人才是有一些共性的要求的，只要...

2020-08-23 19:59:00 219

原创 Apache Kafka 2.6.0 有哪些值得关心的变化

Apache Kafka 2.6.0 于2020年08月03日正式发布。在这个版本中，社区做了很多显著的性能改进，特别是当 Broker 有非常多的分区时。Broker 关闭性能得到了显...

2020-08-23 19:59:00 2398

转载请把这3个京东真实AI项目写到简历上！

《京东NLP企业项目实战训练营》专注于培养行业TOP10%的NLP工程师对课程有意向的同学添加课程顾问小姐姐微信报名、课程咨询????????????《京东NLP企业项目实战训练营》专注...

2020-08-20 08:20:00 272

转载收藏！一张图帮你快速建立大数据知识体系

【过往记忆大数据】已开通技术交流及招聘求职内推群，加微信号fangzhen0219为好友后入群。阿里妹导读：对海量数据进行存储、计算、分析、挖掘处理需要依赖一系列的大数据技术，而大数据...

2020-08-20 08:20:00 442

转载超全面的大数据面试题，一道比一道难，快来挑战一下吧

【过往记忆大数据】已开通技术交流及招聘求职内推群，加微信号fangzhen0219为好友后入群。本文全文篇幅1万字左右，从数据结构到Java再到大数据都有整理，可以先收藏起来，查漏补缺...

2020-08-19 08:30:00 926

转载今年，程序员找工作会更难吗？

打开各大招聘网站，明显感受到今年招聘信息少了很多，而且企业对面试者的技能要求更高，技术覆盖面也更全。今年想要轻轻松松跳槽，确实不太容易。但这个时候，我们更应该沉下心，好好梳理自己的技术体...

2020-08-18 20:30:00 389

转载数据中台：浅析数据湖和数据中台的关系

【过往记忆大数据】已开通技术交流及招聘求职内推群，加微信号fangzhen0219为好友后入群。1那些让人眼花缭乱的概念不知道大家有没有发现，这几年的数据领域有好多的概念，例如：大...

2020-08-18 20:30:00 1862

转载流系统Spark/Flink/Kafka/DataFlow端到端一致性实现对比

分布式最难的2个问题1. Exactly Once Message processing2. 保证消息处理顺序.我们今天着重来讨论一下为什么很难怎么解前言就作者学习流系统的感受来看, 流...

2020-08-17 08:58:24 487 1

转载看了这篇文章我才知道，库存管理原来这么简单？！

销量作为衡量企业营收的主要指标之一，也是各大投资机构分析师研究报告的重要组成。分析师一般会为某类产品建立财务模型，运用回归分析法进行预测是常见的手段，也就是根据自变量和因变量的历史数据，...

2020-08-15 20:30:00 366

转载 HBase 四种数据迁移方案

本文原文：http://ballwql.cnblogs.com/一、前言HBase数据迁移是很常见的操作，目前业界主要的迁移方式主要分为以下几类：图1.HBase数据迁移方案从上面图中可...

2020-08-15 20:30:00 5054 1

转载滴滴ElasticSearch千万级TPS写入性能翻倍技术剖析

桔妹导读：滴滴ElasticSearch平台承接了公司内部所有使用ElasticSearch的业务，包括核心搜索、RDS从库、日志检索、安全数据分析、指标数据分析等等。平台规模达到了30...

2020-08-14 08:40:00 531

转载眨眼 Spark 都 3.0 了！

福利手慢无廖雪峰的大数据开发必备教程-Spark视频资料终于免费了！限额领取~今年不少人觉得职场晋升不那么顺畅，说是大环境所致，这也没错。但身边有些人，却能在如此“艰难”的环境下，顺利...

2020-08-13 08:33:57 182

转载自适应查询执行AQE：在运行时加速SparkSQL

演讲嘉宾简介：王道远，阿里巴巴技术专家以下内容根据演讲视频以及PPT整理而成。点击链接观看精彩回放：https://developer.aliyun.com/live/43188自适应查...

2020-08-12 08:30:00 459

转载 Flink x Zeppelin ，Hive Streaming 实战解析

Flink 1.11 正式发布已经三周了，其中最吸引我的特性就是 Hive Streaming。正巧 Zeppelin-0.9-preview2 也在前不久发布了，所以就写了一篇 Zep...

2020-08-11 20:30:00 780

转载逼自己玩命学了6个多月，吃透这31个大数据知识点！分享给你，让你今年进个大厂！...

2020年魔幻开局，上半年疫情肆虐，逼自己学完了这套Kafka 源码深度剖析课程视频，通过对Kafka高性能的消息封装流程源码剖析，服务端高性能架构设计源码剖析等，看完彻底掌握了Kafk...

2020-08-10 08:40:00 403

转载 Zeta：eBay 基于 Apache Spark 开发的新一代数据开发分析平台

供稿 |eBay DSSTeam作者| 田川晓阳编辑 | 顾欣怡本文4490字，预计阅读时间14分钟导读新一代数据开发分析平台Zeta由eBay DSS(Data Services...

2020-08-10 08:40:00 1130

原创 Presto on Spark：扩展 Presto 以支持大规模 ETL

前言Facebook 的数据仓库构建在 HDFS 集群之上。在很早之前，为了能够方便分析存储在 Hadoop 上的数据，Facebook 开发了 Hive 系统，使得科学家和分析师可以使...

2020-08-09 22:13:15 2290

转载 K8S成精了！

2020，上云之年，产品云端化成为一种趋势。在一线城市，很多公司都已经构建了自己的私有云环境，比如阿里云、网易云、华为云等。而Kubernetes 作为基于容器编排领域的王者，具备扩展...

2020-08-08 20:21:39 374

转载这个公众号到底有没有好文章？我整理了300篇，觉得不好我跪榴莲！

花了6个小时，总算整理好了，嗯，榴莲，真香！大数据成神之路Spark/Kafka/Flink/ElasticSearch/Hadoop/Hbase/Hive/Yarn/Kylin/Red...

2020-08-07 08:25:00 1889

转载 Spark SQL 物化视图技术原理与实践

导言本文将基于 SparkSQL（2.4.4） + Hive （2.3.6），介绍物化视图在SparkSQL中的实现及应用。什么是物化视图物化视图主要用于预先计算并保存表连接或聚合等耗...

2020-08-06 11:55:28 856

转载从 0 到 1 搭建一套 Flink 的监控系统

本文带大家讲解一下如何搭建一套完整的 Flink 监控系统，如果你所在的公司没有专门的监控平台，那么可以根据本文的内容来为公司搭建一套属于自己公司的 Flink 监控系统。利用 API ...

2020-08-05 08:30:00 1390 2

转载大厂的 Redis 都是怎么搞的？

如果你是一位后端工程师，面试时八成会被问到 Redis，特别是那些大型互联网公司，不仅要求面试者能简单使用 Redis，还要深入理解其底层实现原理，具备解决常见问题的能力。可以说，熟练使...

2020-08-04 20:45:00 333

转载 Apache Hudi应用调优指南

通过Spark作业将数据写入Hudi时，Spark应用的调优技巧也适用于此。如果要提高性能或可靠性，请牢记以下几点。输入并行性：Hudi对输入进行分区默认并发度为1500，以确保每个S...

2020-08-04 20:45:00 1142

转载光大银行分布式实战：国内最大缴费平台的数据库架构转型

于树文光大银行资深DBA目前在中国光大银行信息科技部数据库管理团队主要负责分布式数据库建设项目，推进行内技术架构转型等相关工作。从事数据库运维管理工作十余年，在数据库的性能优化，升级迁移...

2020-08-03 09:18:25 950

转载面试必知的 Spark SQL 几种 Join 实现

Join作为SQL中一个重要语法特性，几乎所有稍微复杂一点的数据分析场景都离不开Join，如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流...

2020-08-02 20:20:47 512 1

转载 Kafka 是靠什么机制保持高可靠，高可用的？

这个 Acks 参数在 Kafka 的使用中，是非常核心以及关键的一个参数，决定了很多东西。所以无论是为了面试还是实际项目使用，大家都值得看一下这篇文章对 Kafka 的 Acks 参数...

2020-08-01 20:15:55 432

WeCenter 3.2.2

WeCenter 是一款开源知识型的社交化问答社区程序，专注于社区内容的整理、归类和检索，并通过连接微信公众平台，移动APP进行内容分发。

2018-09-13

HBase在不同版本（1.x, 2.x, 3.0）中针对不同类型的硬件（以IO为例，HDD/SATA-SSD/PCIe-SSD/Cloud）和场景（single/batch, get/scan）做了（即将做）各种不同的优化，这些优化都有哪些？如何针对自己的生产业务和硬件环境选择和使用合适的版本/功能？在生产环境可能出现各种问题，而监控系统是发现并解决问题的关键。目前HBase提供了大量的metrics用于监控，其中有哪些是要特别关注的？线上不同类型的问题应该重点查看哪些metrics来定位问题？如何结合metrics和客户端／服务端日志快速定位问题？

2018-08-13

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构，以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

HBase在贝壳找房的应用实践

介绍贝壳基于hbase在多维分析（kylin）,楼盘字典等核心项目的应用，并分享在实践过程中遇到的问题和性能优化经验。

2018-08-13

Scala Cheat Sheet

本速查表可以用于快速地查找Scala语法结构。Licensed by Brendan O’Connor under a CC-BY-SA 3.0 license.

2018-07-04

Apache Hive Functions Cheat Sheet

How to create and use Hive Functions, Listing of Built-In Functions that are supported in Hive

2018-07-04

Apache Spark Cheat Sheet

Apache Spark has become the engine to enhance many of the capabilities of the ever-present Apache Hadoop environment. For Big Data, Apache Spark meets a lot of needs and runs natively on Apache Hadoop’s YARN. By running Apache Spark in your Apache Hadoop environment, you gain all the security, governance, and scalability inherent to that platform. Apache Spark is also extremely well integrated with Apache Hive and gains access to all your Apache Hadoop tables utilizing integrated security.

2018-07-04

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part1部分。 spark-summit-north-america-2018-06 全部 PPT -part1部分

2018-06-19

spark-summit-north-america-2018-06 全部 PPT -part2

spark-summit-north-america-2018-06全部PPT，下载。spark-summit-north-america-2018-06

2018-06-17

A Deep Dive into Stateful Stream Processing in Structured Streaming

A Deep Dive into Stateful Stream Processing in Structured Streaming A Deep Dive into Stateful Stream Processing in Structured Streaming

2018-06-17

Implementing AutoML Techniques at Salesforce Scale

Implementing AutoML Techniques at Salesforce Scale,Implementing AutoML Techniques at Salesforce Scale

2018-06-17

Using AI to Deliver a Device as a Service

Using AI to Deliver a Device as a Service,Using AI to Deliver a Device as a Service

2018-06-17

Foundations of streaming SQL

Covering ideas from across the Apache Beam, Apache Calcite, Apache Kafka, and Apache Flink communities, with thoughts and contributions from Julian Hyde, Fabian Hueske, Shaoxuan Wang, Kenn Knowles, Ben Chambers, Reuven Lax, Mingmin Xu, James Xu, Martin Kleppmann, Jay Kreps and many more, not to mention that whole database community thing...

2018-06-15

Deep Dive into Spark SQL with Advanced Performance Tuning

Spark SQL is a highly scalable and efficient relational processing engine with ease-to-use APIs and mid-query fault tolerance. It is a core module of Apache Spark. Spark SQL can process, integrate and analyze the data from diverse data sources (e.g., Hive, Cassandra, Kafka and Oracle) and file formats (e.g., Parquet, ORC, CSV, and JSON). This talk will dive into the technical details of SparkSQL spanning the entire lifecycle of a query execution. The audience will get a deeper understanding of Spark SQL and understand how to tune Spark SQL performance.

2018-06-11

QCon北京2018－《RandonDb新一代分布式关系型数据库》－张雁飞.pdf

RadonDB ►可扩展 ►高可用 ►强一致 ►易部署 ►MyNewSQL

2018-05-16

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

区块链是在点对点网络中对交易具有防篡改功能的共享数据账本，Hyperledger fabric是一个比较知名的开源区块链框架，其中作为分布式系统的核心问题就是共识算法以及共识算法的效率问题。如何既保证这个共识算法能让参与区块链的联盟各方都认可它的安全可信，又能提高联盟成员间的共识效率就是一个所有人都关注的重要问题，这里我们将会介绍一种优化的bft共识算法的设计和使用方式。对于区块链服务的使用者，数据安全性是一个非常重要的问题，例如同态加密，零知识证明和国密算法等，我们会介绍这些高级功能特性，讲解这些特性的原理，以及介绍华为提供的这些特性支持中接口是怎么使用，还有通过代码示例演示怎么使用这些高级特性，让大家对区块链服务的基础和基于它的一些高级功能能有初步认识到基本实践的能力。

2018-05-16

QCon北京2018-强业务驱动的互联网+，技术管理的坑与路--廖雪梅.pdf

作为一名10年的互联网从业者，见证过流量分发、移动互联网等技术为王的时代，也正在经历以技术驱动传统行业改造的互联网+时代。在流量分发的年代，一个算法的优化，可以轻松提高收入，一个首屏加载时间的优化，可以快速提高转化率，那是一个技术为王的时代，我们会对高QPS、更短访问耗时津津乐道。而在互联网+时代，我们用自己引以为豪的技术继续去改造一个个自己并不熟悉的传统行业，突然发现我们做了很多管理系统，类erp系统，只是这些系统比之前复杂很多，我们经常在中间晕头转向，而我们引以为豪的高性能高并发各类技术似乎没有了用武之地。互联网+时代，技术管理者身边充斥这样的声音：后端研发跟你抱怨技术挑战小，没有成长空间；前端小伙伴跟你吐槽做了太多管理系统，想玩各类新技术RN、酷炫的动画都找不到试验田；业务还不会不断告诉你，xx系统的设计方案完全不符合线下场景……在焦躁不安中，甚至开始怀疑，这还是就技术改变世界的时代吗？

2018-05-16

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

有一期《奇葩说》，老罗说跨界很重要，实在想不到跨什么，就跨界去学演讲吧。他给的道理是影响力。我给的道理是演讲能从根本上提升你的软实力和硬实力。这次分享，我会用我的从工程师到专家工程师的亲身经历作为案例，从沟通力，学习力，思考力，强迫力，告诉大家，用怎样的钥匙才能打开这扇门。希望听众能收获并践行，让自己的职业生涯更进一步。

2018-05-16

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Oracle区块链云服务基于开源的Hyperledger Fabric软件打造，是一个与其他高性能Oracle云服务相集成，且预先集成了Oracle SaaS和Oracle内部部署应用的开放的API式解决方案，能够与任何系统进行定制化整合。

2018-05-16

Apache iceberg：Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式，是专门为对象存储（如S3）而设计的。本文将介绍为什么 Netflix 需要构建 Iceberg，Apache Iceberg 的高层次设计，并会介绍那些能够更好地解决查询性能问题的细节。

2020-02-23

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Hadoop YARN is the modern distributed operating system for big data applications. It morphed the Hadoop compute layer to be a common resource-management platform that can host a wide variety of applications. Many organizations leverage YARN in building their applications on top of Hadoop without repeatedly worrying about resource management, isolation, multitenancy issues, etc. The Hadoop Distributed File System (HDFS) is the primary data storage system used by Hadoop applications. It employs a NameNode and DataNode architecture to implement a distributed file system that provides high-performance access to data across highly scalable Hadoop clusters. Wangda Tan and Wei-Chiu Chuang the current status of Apache Hadoop 3.x—how it’s used today in deployments large and small, and they dive into the exciting present and future of Hadoop 3.x—features that further strengthen Hadoop as the primary resource-management platform and the storage system for enterprise data centers. They explore the current status and the future promise of features and initiatives for both YARN and HDFS of Hadoop 3.×. For YARN 3.x, there is powerful container placement, global scheduling, support for machine learning (Spark) and deep learning (TensorFlow) workloads through GPU and field-programmable gate array (FPGA) scheduling and isolation support, extreme scale with YARN federation, containerized apps on YARN, support for long-running services (alongside applications) natively without any changes, seamless application/services upgrades, powerful scheduling features like application priorities, intra-queue preemption across applications, and operational enhancements including insights through Timeline Service v2, a new web UI, better queue management, etc. Also, HDFS 3.0 announced GA for erasure coding, which doubles the storage efficiency of data and thus reduces the cost of storage for enterprise use cases. HDFS added support for multiple standby NameNodes for better availability. For better reliability of metadata and easier operations, Journal nodes have been enhanced to sync the edit log segments to protect against rolling failures. Disk balancing within a DataNode was another important feature added to ensure disks are evenly utilized in a DataNode, which also ensures better aggregate throughput and prevents from lopsided utilization if new disks are added or replaced in a DataNode. The HDFS team is currently driving the Ozone initiative, which lays the foundation of the next generation of storage architecture for HDFS where data blocks are organized in storage containers for higher scale and handling of small objects in HDFS. The Ozone project also includes an object store implementation to support new use cases. And you’ll leave with all the knowledge of how to upgrade painlessly from 2.x to 3.x to get all the benefits.

2020-02-04

Apache Doris (Incubating) 原理与实践.pdf

Doris（原百度 Palo）是一款基于大规模并行处理技术的分布式 SQL 数据库，由百度在 2017 年开源，2018 年 8 月进入 Apache 孵化器。

2019-12-10

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域，Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎，另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据，单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署，因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果，介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019 补充PPT，解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展，以及在现实世界中部署人工智能的最佳实践。

2019-11-03

Spark+AI Summit Europe 2019_iteblog.zip.002

由于文件过大，分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议，大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展，以及在现实世界中部署人工智能的最佳实践。

2019-11-01

Spark+AI Summit Europe 2019_iteblog.zip.001

2019-11-01

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

数据工程师的纠结与运维的凌乱 • Delta Lake基本原理 • Delta 架构 • Delta 架构的特性 • Delta 架构的经典案例 & Demo • Delta Lake 社区

2019-10-28

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山（San Francisco）进行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。作为大数据领域的顶级会议，Spark+AI Summit 2019 吸引了全球大量技术大咖参会，而且 Spark+AI Summit 越做越大，本次会议议题快接近200多个。详情：https://www.iteblog.com/archives/2431.html

2019-09-21

From Stream Processor to a Unified Data Processing System

The Apache Flink community has pushed (and continues to push) the boundary for Stream Processing over the last years, following the understanding that Stream Processing is unifying paradigm to build data processing applications, beyond real-time analytics. The latest major effort in the Flink community is nothing less then re-architecting the API and runtime stack, with the goal to naturally support the spectrum of analytics and data-driven applications, to unify the APIs for batch and streaming (Table API and DataStream API), and to build a streaming runtime that is not only state-of-the-art in stream processing, but also in batch processing performance. In this keynote, we give an overview of the goals and technology behind the above effort, and look at the adoption of Apache Flink for Stream Processing and "beyond streaming" use cases, as well as various efforts in the community to support the growth in users, applications, and ecosystem.

2019-04-20

Apache Spark 2.4 and beyond

Apache Spark 2.4 comes packed with a lot of new functionalities and improvements, including the new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support, and more. Xiao Li and Wenchen Fan offer an overview of the major features and enhancements in Apache Spark 2.4. Along the way, you’ll learn about the design and implementation of V2 of theData Source API and catalog federation in the upcoming Spark release. Then you’ll get the chance to ask all your burning Spark questions.

2019-04-14

Flink社区专刊S2-重新定义计算

阿里巴巴最新一期Flink电子月刊《重新定义计算：Apache Flink 实践》正式发布，该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和Flink Forward China峰会上的精彩演讲内容，希望对大家有所帮助。详情参考：https://mp.weixin.qq.com/s/HS9qoGTKzyd46VgjEpNiwg

2019-04-11

从MPP数仓迁移至Spark：案例与最佳实践分享

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中，我们遇到了很多的预料之外的问题，如字符集问题，数字进位问题，各种OOM等等，更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中，我们做了很多的实践，贡献给了社区很多的反馈，也解决了很多的bug。即便对于Spark当前不能处理的场景，比如recurisve query，也有了一些可行的探索。此外，我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中，我们会深入迁移的关键步骤，并分享踩过的一些坑，最后会介绍我们的自动化工具，如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。下面是PPT原文：关注 Hadoop技术博文并回复 ebay_spark 获取本文PPT。

2019-03-31

2018 Apache HBase 技术实战专刊

本专刊由中国HBase技术社区整理，一共156页，包含HBase案例、组件、技术、平台等方面的介绍，详情参见https://www.iteblog.com/archives/2496.html

2019-01-07

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

我们都知道，Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook，单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据；而且 shuffle reads 也是一种低效的操作，这会大大延长作业的整体执行时间，并且消耗大量的系统资源。为了提高 shuffle 的性能并提高资源利用率，Facebook 开发了 Spark-optimized Shuffle (SOS) 。这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了，作业整体的 I/O 提升了两倍，计算效率提高10％。值得高兴的是，这项技术 Facebook 打算共享给社区。本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

WeCenter 3.2.2

HBase in Practise: 性能、监控和问题排查

HBase Procedure V2介绍

HBase在贝壳找房的应用实践

Scala Cheat Sheet

Apache Hive Functions Cheat Sheet

Apache Spark Cheat Sheet

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part2

A Deep Dive into Stateful Stream Processing in Structured Streaming

Implementing AutoML Techniques at Salesforce Scale

Using AI to Deliver a Device as a Service

Foundations of streaming SQL

Deep Dive into Spark SQL with Advanced Performance Tuning

QCon北京2018－《RandonDb新一代分布式关系型数据库》－张雁飞.pdf

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

QCon北京2018-强业务驱动的互联网+，技术管理的坑与路--廖雪梅.pdf

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Apache iceberg：Netflix 数据仓库的基石

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Doris (Incubating) 原理与实践.pdf

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019_iteblog.zip.002

Spark+AI Summit Europe 2019_iteblog.zip.001

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

Apache Spark 3.0, Koalas, Delta Lake 最新进展

SPARK + AI SUMMIT 2019 全部 PPT

From Stream Processor to a Unified Data Processing System

Apache Spark 2.4 and beyond

Flink社区专刊S2-重新定义计算

从MPP数仓迁移至Spark：案例与最佳实践分享

2018 Apache HBase 技术实战专刊

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

Apache Spark Shuffle I/O 在 Facebook 的优化

不仅仅是流计算：Apache Flink实践

Spark AI Summit Europe 2018 全部PPT - part1

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

空空如也