自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

过往记忆大数据

欢迎关注过往记忆大数据

  • 博客(41)
  • 资源 (291)
  • 收藏
  • 关注

转载 58同城实时计算平台架构实践

背景58同城作为覆盖生活全领域的服务平台,业务覆盖招聘、房产、汽车、金融、二手及本地服务等各个方面。丰富的业务线和庞大的用户数每天产生海量用户数据需要实时化的计算分析,实时计算平台定位于...

2019-11-30 22:00:00 1110

转载 为什么 Redis 选择单线程模型却能提供高并发请求

为什么这么设计(Why's THE Design)是一系列关于计算机领域中程序设计决策的文章,我们在这个系列的每一篇文章中都会提出一个具体的问题并从不同的角度讨论这种设计的优缺点...

2019-11-29 21:58:00 823

转载 谷歌云大数据分析与人工智能技术实践

企业出海是个复杂工程, 越来越多的出海企业除了考虑海外强大可扩展,安全合规的云基础设施和服务之外,也开始积极拥抱容器和 Kubernetes 技术,构建自己下一代的敏捷基础架构以应对激烈...

2019-11-29 21:58:00 587

转载 这个时代,达不到百万级以上的并发量,都不叫高并发!!!

华为阿里缩减社招HC去年的今天,一条新闻引发互联网行业“惊涛骇浪”,华为、阿里、京东、腾讯陆续被爆料“全面停止社招,各业务线不批offer”。随后在各大厂的公开辟谣声明中...

2019-11-27 21:55:00 621

转载 如何利用Kubernetes集群提升资源利用率?

导语 |近日,云+社区技术沙龙“高效智能运维”圆满落幕。本期沙龙围绕运维展开了一场技术盛宴,从AIOps、Serverless DevOps、蓝鲸PaaS平台、K8S等...

2019-11-27 21:55:00 1782

转载 很遗憾,没有一篇文章能讲清楚ZooKeeper

“ 互联网时代是信息爆发的时代,信息的高并发催生了分布式系统的广泛应用。图片来自 Pexels作为分布式系统解决方案的 ZooKeeper,被广泛应用于多个分布式场景。例如:数据发布/订阅,负载均衡,命名服务,集群管理等等。因此,ZooKeeper 在分布式系统中扮演着重要的角色,今天通过一个简单的例子来看看它的实现原理。从一个简单的例子开始在分布式系统中经常会遇到这种情况,多个应用读取同一个配置...

2019-11-26 16:29:00 610 1

转载 牛人用 Rust 重写了 Apache Spark,并把它开源了

策划 | 蔡芳芳 作者 | Raja Sekar 译者 | 阿拉丁 编辑 | Natalie AI 前线导读: 本文作者 Raja...

2019-11-25 21:27:00 2874

转载 斗鱼在线分析平台演进之路

游戏直播行业龙头斗鱼在 2019 年 Q2 的平均 MAU 再创新高,达到 1.628 亿。每天,超大量的用户使用斗鱼各客户端参与线上互动,斗鱼需要对客户端采集到的性能数据进行统计和分析,开发出具有多维度分析图表和数据监控的 APM (Application Performance Monitoring,应用性能监控) 平台。最初,斗鱼采用了市面上非常流行的 Elasticsearch (简称 E...

2019-11-24 21:46:00 870

转载 30岁的程序员:不拼体力的我们应该关注什么?

老张是一名程序员,一位颇有经验的技术人。他曾通过自己的努力,为公司业务带来不小的增长。但随着年龄和薪资的不断增长,老张需要通过各种加班来处理更多的需求,他也曾为自己的职业...

2019-11-22 21:58:00 292

转载 为什么摸了一天的鱼,你还是感觉这么累?

这个常常被人们忽略,美国加利福尼亚大学洛杉矶分校一个研究小组在《科学公共图书馆·综合》上发布报告指出,他们对中老年人进行了一项研究,研究显示,久坐不动脑的人,大脑中一个对记忆至关重要的区域厚度会变薄研究小组招募了 35 名年龄在 45 岁至 75 岁的志愿者,询问他们的身体锻炼情况及平均每天坐着的时长。然后研究人员对这些志愿者的脑部进行了高分辨率磁共振成像。结果发现,坐的时间较长与大脑内侧颞叶变薄...

2019-11-22 21:58:00 792

转载 支撑小米万亿级的消息队列架构与实践

其主要内容是流式平台团队在 SACC 2019 (sacc.it168.com)大会上分享的主题,这里简单整理成文,供大家参考,其中一些重要问题的细节会在后续文章陆续展开;今天的主题主要包括以下几个方面的内容:业务背景:消息队列在小米落地的业务背景架构与关键问题:小米自研分布式消息队列 Talos 的架构和关键问题性能与资源优化:业务爆发式增长,Talos 在性能和资源方面的挑战与实践经验平台化效...

2019-11-21 21:49:00 442 1

转载 【第六期】拿不到offer全额退款 人工智能工程师培养计划招生

前言学院第四期课程在2019年10月结课,第一至第四期具有求职意向的同学中,目前已经有80%的同学拿到了国内外名企的AI算法岗位offer,或者国外名校的AI 硕士、全...

2019-11-20 21:39:39 346

转载 小米 MySQL 数据实时同步到大数据数仓的架构与实践

背景MySQL由于自身简单、高效、可靠的特点,成为小米内部使用最广泛的数据库,但是当数据量达到千万/亿级别的时候,MySQL的相关操作会变的非常迟缓;如果这时还有实时BI展示的需求,对于mysql来说是一种灾难。为了解决sql查询慢,查不了的业务痛点,我们探索出一套完整的实时同步,即席查询的解决方案,本文主要从实时同步的角度介绍相关工作。早期业务借助Sqoop将Mysql中的数据同步到Hive来进...

2019-11-20 21:39:39 814

转载 Spark SQL 在字节跳动的核心优化实践

10月26日,字节跳动技术沙龙| 大数据架构专场在上海字节跳动总部圆满结束。我们邀请到字节跳动数据仓库架构负责人郭俊,Kyligence 大数据研发工程师陶加涛,字节跳动存储工程师徐明敏,阿里云高级技术专家白宸和大家进行分享交流。以下是字节跳动数据仓库架构负责人郭俊的分享主题沉淀,《字节跳动在Spark SQL上的核心优化实践》。团队介绍数据仓库架构团队负责数据仓库领域架构设计,支持字节跳动几...

2019-11-19 22:32:50 1133

转载 一文了解一致性哈希

本文使用软件环境:Java 8一、数据分布接口定义概述在分布式环境下面,我们经常会通过一定的规则来进行数据分布的定义,比如用户1的数据存储到数据库1、用户2的数据存储到数据库2......一般来说,有这么几种常用的方式:有一个分布式环境中唯一的中心分发节点,每次在数据存储的时候,都会询问中心节点这个数据该去哪儿,这个分发节点明确告诉这个数据该去哪儿。通过一定规则产生一个key,对这个key进行一定...

2019-11-19 22:32:50 480 1

转载 雅虎日本如何用 Pulsar 构建日均千亿的消息平台

雅虎日本是一家雅虎和软银合资的日本互联网公司,是日本最受欢迎的门户网站之一。雅虎日本的互联网服务在日本市场占主导地位。下图从三个维度显示了雅虎日本的经营规模。第一个是服务数量,雅虎日本提供上百种互联网服务;第二个是服务器数量,雅虎日本使用超过 150,000 台服务器(大多为裸机服务器)全天候支持这上百种互联网服务的正常运作;第三个是每月总页面浏览量,2017 年的数据显示,雅虎日本每月浏览量超过...

2019-11-17 21:56:00 578

转载 GitHub 启动代码永久保存计划,为人类文明留“火种”?

2019 年 11月 13-14 日,GitHub 举办了年度开发者大会 GitHub Universe 2019。今年的 GitHub 大会,除了在会前发布的年度报告(点击蓝字回顾:),还公布了一个 GitHub 的 App 版本,让广大开发者喜大普奔。但最让我感兴趣的,是他们在峰会现场发布的 —— GitHub Archive Program 代码永久保存计划。在会上,GitHub 官方说明...

2019-11-16 22:00:00 2799

转载 不知道这些知识点,面试的时候别说你懂 Kafka

kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息,消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。kafka对外使用topic的概念,生产者往topic里写消息,消费者从读消息。为了做到水平扩展,一个topic实际是由多个partition组成的,遇到瓶颈时,可以通过增加partition的数量来进行横向扩容。单个...

2019-11-15 20:00:00 303

转载 Apache Hudi: Uber 开源的大数据增量处理框架

随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而,为了实现这一点,这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。为了解决这个问题,优步开发了Hudi项目,这是一个增量处理框架,高效和低延迟地为所有业务关键数据链路提供有力支持。事实上,Uber...

2019-11-14 21:52:57 1030

转载 一份不可多得的数据科学与机器学习Python库

图片来自 Pexels根据当前技术界的广泛需求,本文将以如下顺序重点介绍,市场上适合于数据科学和机器学习实现的优秀 Python 软件:数据科学与机器学习的介绍为什么要使用 Python 进行数据科学和机器学习?用于数据科学和机器学习的 Python 库数据科学与机器学习的介绍众所周知,我们正处在一个大数据的时代,数据是驱动机器模型发展的“燃料”。实际上,数据科学和机器学习都属于技能范畴,而不仅仅...

2019-11-14 21:52:57 502 1

转载 大数据在未来十年将如何发展

作者丨Oleksii Kharkovyna译者丨夏夜在这篇博客中,我不打算预测数据科学面对的未来是什么,不会去猜测它的未来是光明有前途,还是毫无希望。这里我只结合自己,还有我认识的一些人的经历,提供一些决定性因素帮忙做预测。抛开这些,我先大致勾勒一下今后 10 年影响数据科学未来的关键因素。我希望它会在工作流程上带给你一些有价值的见解。不用多说,这只是我的个人预测。如果你感兴趣,请继续读下去! ...

2019-11-13 21:58:00 858

转载 支撑腾讯直播百亿请求的 Redis 集群是如何工作的

摘要:作为noSql中的kv数据库的王者,redis以其高性能,低时延,丰富的数据结构备受开发者青睐,但是由于redis在水平伸缩性上受限,如何做到能够水平扩容,同时对业务无侵入性是很多使用redis的开发人员都会面临的问题,而redis分布式解决方案的一个开源产品【codis】较好的弥补了这一弱势,本文主要讲解codis是如何做到对业务无感知,平滑迁移,迁移性能高,迁移异常处理,高可用以及常见的...

2019-11-12 21:55:55 735

转载 腾讯的企业级分布式 HTAP 数据库管理系统 TBase 正式开源

本文转自公众号:腾讯开源TBase简介TBase是腾讯数据平台团队在开源的PostgreSQL基础上研发的企业级分布式HTAP数据库管理系统:具备高性能可扩展的分布式事务能力,支持RC和RR两种隔离级别;通过安全、管理、审计三权分立体系,提供全方位的数据安全保证机制;支持高性能分区表,可使得数据检索效率成倍提升;SQL方面兼容2003标准、PostgreSQL语法和常用Oracle函数&数...

2019-11-11 22:10:53 1700

转载 双11,当当图书大放价,专属200-30优惠码免费送

机械工业出版社华章公司联合当当网特意为【过往记忆大数据】用户申请了一批可与满减叠加使用的“满200减30”的图书优惠码。▶ 超 值 购 书 优 惠 码◀当当20周年庆百...

2019-11-10 21:13:37 905

原创 一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)的使用

福利:过往记忆大数据知识星球双11限时折扣,原价99元,现价39元,需要的先加 fangzhen0219 微信了解详情,三天内不满意随时全额退。星球没有花哨玩法,主要就是大数据相关问题答疑,能力范围内知无不言、大数据相关资料分享、大数据原创技术文章分享等。另外,本知识星球有效期到2020年4月28日,到期需续费。Spark 3.0动态分区裁剪(Dynamic Partition Pruning)...

2019-11-10 21:13:37 1836

转载 10种常见的MySQL错误,你可中招?

图片来自 PexelsMySQL 8 是当前流行的数据库引擎之一。在得到正确配置的情况下,它能够以相对较低成本的方式,帮助成千上万的数据库连接到对应的服务器上。另外,由于它是一种在业界被使用多年的常用数据库工具,因此您不太可能会遇到某个服务器无法识别它的情况。可以说,您可以将其配置到任何自己希望处理和存储数据的应用场景之中。当然,MySQL 8 也并非是完全“开箱即用”的,如果您未能对其进行恰当的...

2019-11-09 21:44:00 332

原创 Apache Spark 3.0 预览版正式发布,多项重大功能发布

今天早上 06:53(2019年11月08日 06:53) 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0预览版正式发布,这个版本主要是为了对即将发布的 ApacheSpark 3.0版本进行大规模社区测试。无论是从 API 还是从功能上来说,这个预览版都不是一个稳定的版本,它的主要目的是为了让社区提前尝试 Apache Spark 3.0...

2019-11-08 20:52:00 5237

转载 有哪些命令行工具堪称神器?

过去几年,在 GitHub 上见到过不少优质的项目,其中不乏特别实用,能大幅提升生产力的命令行工具。今天在这里就简单整理下,跟大家分享几个比较实用的命令行工具吧。mas一个 Mac 应用商店命令行工具,支持搜索、安装、更新应用等操作,用起来十分方便。https://github.com/mas-cli/mas对于一些只能通过 App Store 安装的软件,这个工具可以说非常实用了。gitsome...

2019-11-08 20:52:00 311

转载 用了这么久的消息队列,你知道为什么需要它吗?

本文转自公众号:小米云技术,作者:勇幸目录日志与消息队列消息队列的应用价值数据集成与系统解耦异步处理与事件驱动流量削峰事务消息与分布式事务的最终一致从历史看消息队列的价值演化小米的消息队列产品Talos与EMQTalos/EMQ与开源产品的区别Talos与EMQ的区别后续文章参考文献时常会思考消息队列的价值是什么?新人加入团队后该如何理解消息队列?又该如何理解小米的自研产品 Talos 和 EM...

2019-11-07 21:58:00 1187

转载 你真的知道 NoSuchMethodError 发生原因和解决办法吗

当应用程序试图调用类(静态或实例)的指定方法,而该类已不再具有该方法的定义时,就会抛出 java.lang.NoSuchMethodError 错误。简单地说,就是同一个 Class 有多个版本的实现,并且在运行时调用了缺少方法的那个版本。本文总结了 NoSuchMethodError 常见原因及其解决方法,如有遗漏或错误,欢迎补充指正。运行时抛出 NoSuchMethodError 的根本原因是...

2019-11-06 21:39:31 64981 8

转载 YARN 在快手的应用实践与技术演进之路

本文是房孝敬老师主题为“yarn在快手应用实践与技术演进之路”的分享整理,内容包含yarn系统在快手的应用实践,遇到的问题以及相应的技术演进过程。讲师介绍:房孝敬,快手大数据架构团队调度方向负责人,目前负责快手公司Hadoop生态中调度、AI架构等子系统内核与周边子系统的研发,并推动在公司内的应用。2011年毕业于北京邮电大学,曾就职于阿里、腾讯。主要研究领域包括Docker云平台,分布式调度和计...

2019-11-05 21:51:52 518

转载 没看这篇干货,别说你会使用“缓存”

图片来自Unsplash这种说法带有片面性,甚至是一知半解,但是作为专业人士的我们,需要对缓存有更深、更广的了解。缓存技术存在于应用场景的方方面面。从浏览器请求,到反向代理服务器,从进程内缓存到分布式缓存。其中缓存策略,算法也是层出不穷,今天就带大家走进缓存。处处皆缓存缓存对于每个开发者来说是相当熟悉了,为了提高程序的性能我们会去加缓存,但是在什么地方加缓存,如何加缓存呢?假设一个网站,需要提高...

2019-11-05 21:51:52 232

原创 一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)

静态分区裁剪(Static Partition Pruning)用过Spark的同学都知道,SparkSQL 在查询的时候支持分区裁剪,比如我们如果有以下的查询:SELECT * FROM Sales_iteblogWHERE day_of_week = 'Mon'Spark 会自动进行以下的优化:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:ite...

2019-11-04 21:47:09 1221

转载 Apache Cassandra 技术揭秘及实践应用线下交流会

由中国 Cassandra 技术社区主办,阿里云、DataFun协办的中国Cassandra技术社区第一届Meetup:Apache Cassandra 技术揭秘及实践应...

2019-11-04 21:47:09 222

原创 使用 Spark 和 Delta Lake 构建近实时数据仓库

本文来自于2019年10月15日-17日荷兰首都阿姆斯特丹举行的 SPARK + AI SUMMIT Europe 2019 会议,议题名为《Near Real Time Data Warehousing with Apache Spark and Delta Lake》,分享者 Jasper Groot。本文 PPT请关注过往记忆大数据微信公众号,并回复data_warehouse关键字获...

2019-11-03 21:29:00 3082

转载 曾经想干掉 Java 的微软宣布加入 OpenJDK 项目

近日,微软的 Bruno Borges 在 OpenJDK 邮件列表中发布了一条消息,内容包含接下来发生的事情以及微软如何开始将其团队整合到 OpenJDK 社区。在邮件中,Bruno Borges 提到,微软已正式签署《Oracle 贡献者协议》。同时,他重申了微软对 Java 的承诺,以及微软团队对回馈 Java 社区的期待。Borges 曾经是 Oracle 开发人员,现在担任微软 Java...

2019-11-03 21:29:00 259

转载 看了几百个小时资料,为什么你只能是“伪架构师”?| 聊聊这件事

在如今的互联网行业内,title混乱,80%以上拿着高薪挂着架构师头衔的老码农,实则都是“伪架构师”。我甚至见过本科毕业一两年,就来投递架构师岗位的应聘者。我不否认他在理...

2019-11-02 21:54:00 338

原创 实时平台在趣头条的建设实践

本文由趣头条实时平台负责人席建刚分享趣头条实时平台的建设,整理者叶里君。文章将从平台的架构、Flink现状,Flink应用以及未来计划四部分分享。一.平台架构1、Flin...

2019-11-02 21:54:00 393

原创 Spark+AI Summit Europe 2019 超清视频&PPT下载

为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而Spark能够处理海量数据的分析,将Spark和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议...

2019-11-01 20:45:40 400

转载 如何在 Kylin 中优雅地使用 Spark

前言Kylin 用户在使用 Spark的过程中,经常会遇到任务提交缓慢、构建节点不稳定的问题。为了更方便地向 Spark 提交、管理和监控任务,有些用户会使用 Livy 作为 Spark 的交互接口。在最新的 Apache Kylin 3.0 版本中,Kylin 加入了通过 Apache Livy 递交 Spark 任务的新功能[KYLIN-3795],特此感谢滴滴靳国卫同学对此功能的贡献。Liv...

2019-11-01 20:45:40 1211

WeCenter 3.2.2

WeCenter 是一款开源知识型的社交化问答社区程序,专注于社区内容的整理、归类和检索,并通过连接微信公众平台,移动APP进行内容分发。

2018-09-13

HBase in Practise: 性能、监控和问题排查

HBase在不同版本(1.x, 2.x, 3.0)中针对不同类型的硬件(以IO为例,HDD/SATA-SSD/PCIe-SSD/Cloud)和场景(single/batch, get/scan)做了(即将做)各种不同的优化,这些优化都有哪些?如何针对自己的生产业务和硬件环境选择和使用合适的版本/功能? 在生产环境可能出现各种问题,而监控系统是发现并解决问题的关键。目前HBase提供了大量的metrics用于监控,其中有哪些是要特别关注的?线上不同类型的问题应该重点查看哪些metrics来定位问题?如何结合metrics和客户端/服务端日志快速定位问题?

2018-08-13

HBase Procedure V2介绍

主要介绍一下Procedure V2的设计和结构,以及为什么用Procedure V2能比较容易实现出正确的AssignmentManager。最后介绍一下最近在2.1分支上对一些Procedure实现修正和改进。

2018-08-13

HBase在贝壳找房的应用实践

介绍贝壳基于hbase在多维分析(kylin),楼盘字典等核心项目的应用,并分享在实践过程中遇到的问题和性能优化经验。

2018-08-13

Scala Cheat Sheet

本速查表可以用于快速地查找Scala语法结构。Licensed by Brendan O’Connor under a CC-BY-SA 3.0 license.

2018-07-04

Apache Hive Functions Cheat Sheet

How to create and use Hive Functions, Listing of Built-In Functions that are supported in Hive

2018-07-04

Apache Spark Cheat Sheet

Apache Spark has become the engine to enhance many of the capabilities of the ever-present Apache Hadoop environment. For Big Data, Apache Spark meets a lot of needs and runs natively on Apache Hadoop’s YARN. By running Apache Spark in your Apache Hadoop environment, you gain all the security, governance, and scalability inherent to that platform. Apache Spark is also extremely well integrated with Apache Hive and gains access to all your Apache Hadoop tables utilizing integrated security.

2018-07-04

spark-summit-north-america-2018-06 全部 PPT -part1

spark-summit-north-america-2018-06 全部 PPT -part1部分。 spark-summit-north-america-2018-06 全部 PPT -part1部分

2018-06-19

spark-summit-north-america-2018-06 全部 PPT -part2

spark-summit-north-america-2018-06全部PPT,下载。spark-summit-north-america-2018-06

2018-06-17

A Deep Dive into Stateful Stream Processing in Structured Streaming

A Deep Dive into Stateful Stream Processing in Structured Streaming A Deep Dive into Stateful Stream Processing in Structured Streaming

2018-06-17

Implementing AutoML Techniques at Salesforce Scale

Implementing AutoML Techniques at Salesforce Scale,Implementing AutoML Techniques at Salesforce Scale

2018-06-17

Using AI to Deliver a Device as a Service

Using AI to Deliver a Device as a Service,Using AI to Deliver a Device as a Service

2018-06-17

Foundations of streaming SQL

Covering ideas from across the Apache Beam, Apache Calcite, Apache Kafka, and Apache Flink communities, with thoughts and contributions from Julian Hyde, Fabian Hueske, Shaoxuan Wang, Kenn Knowles, Ben Chambers, Reuven Lax, Mingmin Xu, James Xu, Martin Kleppmann, Jay Kreps and many more, not to mention that whole database community thing...

2018-06-15

Deep Dive into Spark SQL with Advanced Performance Tuning

Spark SQL is a highly scalable and efficient relational processing engine with ease-to-use APIs and mid-query fault tolerance. It is a core module of Apache Spark. Spark SQL can process, integrate and analyze the data from diverse data sources (e.g., Hive, Cassandra, Kafka and Oracle) and file formats (e.g., Parquet, ORC, CSV, and JSON). This talk will dive into the technical details of SparkSQL spanning the entire lifecycle of a query execution. The audience will get a deeper understanding of Spark SQL and understand how to tune Spark SQL performance.

2018-06-11

QCon北京2018-《RandonDb新一代分布式关系型数据库》-张雁飞.pdf

RadonDB ►可扩展 ►高可用 ►强一致 ►易部署 ►MyNewSQL

2018-05-16

QCon北京2018-《TiDB架构与开源之路》-申砾.pdf

TiDB架构与开源之路,TiDB架构与开源之路,TiDB架构与开源之路

2018-05-16

Qcon北京2018-《区块链服务在华为公有云平台上的重要问题设计实现及解决方法》-张子怡.pdf

区块链是在点对点网络中对交易具有防篡改功能的共享数据账本,Hyperledger fabric是一个比较知名的开源区块链框架,其中作为分布式系统的核心问题就是共识算法以及共识算法的效率问题。如何既保证这个共识算法能让参与区块链的联盟各方都认可它的安全可信,又能提高联盟成员间的共识效率就是一个所有人都关注的重要问题,这里我们将会介绍一种优化的bft共识算法的设计和使用方式。 对于区块链服务的使用者,数据安全性是一个非常重要的问题,例如同态加密,零知识证明和国密算法等,我们会介绍这些高级功能特性,讲解这些特性的原理,以及介绍华为提供的这些特性支持中接口是怎么使用,还有通过代码示例演示怎么使用这些高级特性,让大家对区块链服务的基础和基于它的一些高级功能能有初步认识到基本实践的能力。

2018-05-16

QCon北京2018-强业务驱动的互联网+,技术管理的坑与路--廖雪梅.pdf

作为一名10年的互联网从业者,见证过流量分发、移动互联网等技术为王的时代,也正在经历以技术驱动传统行业改造的互联网+时代。在流量分发的年代,一个算法的优化,可以轻松提高收入,一个首屏加载时间的优化,可以快速提高转化率,那是一个技术为王的时代,我们会对高QPS、更短访问耗时津津乐道。而在互联网+时代,我们用自己引以为豪的技术继续去改造一个个自己并不熟悉的传统行业,突然发现我们做了很多管理系统,类erp系统,只是这些系统比之前复杂很多,我们经常在中间晕头转向,而我们引以为豪的高性能高并发各类技术似乎没有了用武之地。 互联网+时代,技术管理者身边充斥这样的声音:后端研发跟你抱怨技术挑战小,没有成长空间;前端小伙伴跟你吐槽做了太多管理系统,想玩各类新技术RN、酷炫的动画都找不到试验田;业务还不会不断告诉你,xx系统的设计方案完全不符合线下场景……在焦躁不安中,甚至开始怀疑,这还是就技术改变世界的时代吗?

2018-05-16

QCon北京2018-《用正确分享来磨练专家实力——分享型专家升级记》-黄闻欣.pdf

有一期《奇葩说》,老罗说跨界很重要,实在想不到跨什么,就跨界去学演讲吧。他给的道理是影响力。我给的道理是演讲能从根本上提升你的软实力和硬实力。这次分享,我会用我的从工程师到专家工程师的亲身经历作为案例,从沟通力,学习力,思考力,强迫力,告诉大家,用怎样的钥匙才能打开这扇门。希望听众能收获并践行,让自己的职业生涯更进一步。

2018-05-16

QCon北京2018-《Oracle区块链架构及其应用开发》-蒋春明.pdf

Oracle区块链云服务基于开源的Hyperledger Fabric软件打造,是一个与其他高性能Oracle云服务相集成,且预先集成了Oracle SaaS和Oracle内部部署应用的开放的API式解决方案,能够与任何系统进行定制化整合。

2018-05-16

Apache iceberg:Netflix 数据仓库的基石

Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。

2020-02-23

Apache Hadoop 3.x state of the union and upgrade guidance

Apache Hadoop YARN is the modern distributed operating system for big data applications. It morphed the Hadoop compute layer to be a common resource-management platform that can host a wide variety of applications. Many organizations leverage YARN in building their applications on top of Hadoop without repeatedly worrying about resource management, isolation, multitenancy issues, etc. The Hadoop Distributed File System (HDFS) is the primary data storage system used by Hadoop applications. It employs a NameNode and DataNode architecture to implement a distributed file system that provides high-performance access to data across highly scalable Hadoop clusters. Wangda Tan and Wei-Chiu Chuang the current status of Apache Hadoop 3.x—how it’s used today in deployments large and small, and they dive into the exciting present and future of Hadoop 3.x—features that further strengthen Hadoop as the primary resource-management platform and the storage system for enterprise data centers. They explore the current status and the future promise of features and initiatives for both YARN and HDFS of Hadoop 3.×. For YARN 3.x, there is powerful container placement, global scheduling, support for machine learning (Spark) and deep learning (TensorFlow) workloads through GPU and field-programmable gate array (FPGA) scheduling and isolation support, extreme scale with YARN federation, containerized apps on YARN, support for long-running services (alongside applications) natively without any changes, seamless application/services upgrades, powerful scheduling features like application priorities, intra-queue preemption across applications, and operational enhancements including insights through Timeline Service v2, a new web UI, better queue management, etc. Also, HDFS 3.0 announced GA for erasure coding, which doubles the storage efficiency of data and thus reduces the cost of storage for enterprise use cases. HDFS added support for multiple standby NameNodes for better availability. For better reliability of metadata and easier operations, Journal nodes have been enhanced to sync the edit log segments to protect against rolling failures. Disk balancing within a DataNode was another important feature added to ensure disks are evenly utilized in a DataNode, which also ensures better aggregate throughput and prevents from lopsided utilization if new disks are added or replaced in a DataNode. The HDFS team is currently driving the Ozone initiative, which lays the foundation of the next generation of storage architecture for HDFS where data blocks are organized in storage containers for higher scale and handling of small objects in HDFS. The Ozone project also includes an object store implementation to support new use cases. And you’ll leave with all the knowledge of how to upgrade painlessly from 2.x to 3.x to get all the benefits.

2020-02-04

Apache Doris (Incubating) 原理与实践.pdf

Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在 2017 年开源,2018 年 8 月进入 Apache 孵化器。

2019-12-10

Spark SQL 在字节跳动的优化实践-郭俊.pdf

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

2019-12-03

Spark+AI Summit Europe 2019 Part 3

Spark+AI Summit Europe 2019 补充PPT,解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-03

Spark+AI Summit Europe 2019_iteblog.zip.002

由于文件过大,分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-01

Spark+AI Summit Europe 2019_iteblog.zip.001

由于文件过大,分成2个文件下载。解压密码请到 https://www.iteblog.com/archives/8424.html 获取。为期三天的 SPARK + AI SUMMIT Europe 2019 于 2019年10月15日-17日荷兰首都阿姆斯特丹举行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。Spark+AI Summit Europe 2019 是欧洲最大的数据和机器学习会议,大约有1700多名数据科学家、工程师和分析师参加此次会议。本次会议的提议包括了Apache Spark™、TensorFlow、MLflow 、 PyTorch、Delta Lake、 MLflow 以及 Koalas 等开源技术的最新进展,以及在现实世界中部署人工智能的最佳实践。

2019-11-01

The Delta Architecture Delta Lake + Apache Spark Structured Streaming.pdf

数据工程师的纠结与运维的凌乱 • Delta Lake基本原理 • Delta 架构 • Delta 架构的特性 • Delta 架构的经典案例 & Demo • Delta Lake 社区

2019-10-28

Apache Spark 3.0, Koalas, Delta Lake 最新进展

In this talk, we will highlight major efforts happening in the Spark ecosystem. In particular, we will dive into the details of adaptive and static query optimizations in Spark 3.0 to make Spark easier to use and faster to run. We will also demonstrate how new features in Koalas, an open source library that provides Pandas-like API on top of Spark, helps data scientists gain insights from their data quicker.

2019-10-28

SPARK + AI SUMMIT 2019 全部 PPT

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山(San Francisco)进行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。作为大数据领域的顶级会议,Spark+AI Summit 2019 吸引了全球大量技术大咖参会,而且 Spark+AI Summit 越做越大,本次会议议题快接近200多个。详情:https://www.iteblog.com/archives/2431.html

2019-09-21

From Stream Processor to a Unified Data Processing System

The Apache Flink community has pushed (and continues to push) the boundary for Stream Processing over the last years, following the understanding that Stream Processing is unifying paradigm to build data processing applications, beyond real-time analytics. The latest major effort in the Flink community is nothing less then re-architecting the API and runtime stack, with the goal to naturally support the spectrum of analytics and data-driven applications, to unify the APIs for batch and streaming (Table API and DataStream API), and to build a streaming runtime that is not only state-of-the-art in stream processing, but also in batch processing performance. In this keynote, we give an overview of the goals and technology behind the above effort, and look at the adoption of Apache Flink for Stream Processing and "beyond streaming" use cases, as well as various efforts in the community to support the growth in users, applications, and ecosystem.

2019-04-20

Apache Spark 2.4 and beyond

Apache Spark 2.4 comes packed with a lot of new functionalities and improvements, including the new barrier execution mode, flexible streaming sink, the native AVRO data source, PySpark’s eager evaluation mode, Kubernetes support, higher-order functions, Scala 2.12 support, and more. Xiao Li and Wenchen Fan offer an overview of the major features and enhancements in Apache Spark 2.4. Along the way, you’ll learn about the design and implementation of V2 of theData Source API and catalog federation in the upcoming Spark release. Then you’ll get the chance to ask all your burning Spark questions.

2019-04-14

Flink社区专刊S2-重新定义计算

阿里巴巴最新一期Flink电子月刊《重新定义计算:Apache Flink 实践》正式发布,该月刊融合了 Apache Flink 在国内各大互联网公司的大规模实践和Flink Forward China峰会上的精彩演讲内容,希望对大家有所帮助。详情参考:https://mp.weixin.qq.com/s/HS9qoGTKzyd46VgjEpNiwg

2019-04-11

从MPP数仓迁移至Spark:案例与最佳实践分享

本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈,也解决了很多的bug。即便对于Spark当前不能处理的场景,比如recurisve query,也有了一些可行的探索。此外,我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中,我们会深入迁移的关键步骤,并分享踩过的一些坑,最后会介绍我们的自动化工具,如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。 下面是PPT原文:关注 Hadoop技术博文 并回复 ebay_spark 获取本文PPT。

2019-03-31

2018 Apache HBase 技术实战专刊

本专刊由中国HBase技术社区整理,一共156页,包含HBase案例、组件、技术、平台等方面的介绍,详情参见https://www.iteblog.com/archives/2496.html

2019-01-07

Apache Spark Shuffle I/O 在 Facebook 的优化 [PDF]

我们都知道,Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook,单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据;而且 shuffle reads 也是一种低效的操作,这会大大延长作业的整体执行时间,并且消耗大量的系统资源。 为了提高 shuffle 的性能并提高资源利用率,Facebook 开发了 Spark-optimized Shuffle (SOS) 。 这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了,作业整体的 I/O 提升了两倍,计算效率提高10%。值得高兴的是,这项技术 Facebook 打算共享给社区。 本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

Apache Spark Shuffle I/O 在 Facebook 的优化

我们都知道,Shuffle 操作在 Spark 中是一种昂贵的操作。在 Facebook,单个 Job 的 Shuffle 就可能往磁盘中写入 300TB 的数据;而且 shuffle reads 也是一种低效的操作,这会大大延长作业的整体执行时间,并且消耗大量的系统资源。 为了提高 shuffle 的性能并提高资源利用率,Facebook 开发了 Spark-optimized Shuffle (SOS) 。 这种 shuffle 技术有效地将大量小的 shuffle 读请求转换成少并且大的顺序 I/O 请求。目前这个技术于2018年4月已经在 Facebook 大规模使用了,作业整体的 I/O 提升了两倍,计算效率提高10%。值得高兴的是,这项技术 Facebook 打算共享给社区。 本地址是这项技术的视频介绍。关注Hadoop技术博文(iteblog_hadoop) 公众号并回复 sos 获取本文相关ppt及相关技术论文。

2018-12-10

不仅仅是流计算:Apache Flink实践

为了让大家更为全面的了解Flink,我和 infoQ 的徐川联合制作了一本介绍 Apache Flink 的中文专刊《不仅仅是流计算:Apache Flink实践》。它融合了Apache Flink在国内各大顶级互联网公司的大规模实践。更多大数据博文参见https://www.iteblog.com

2018-11-29

Spark AI Summit Europe 2018 全部PPT - part1

Spark AI Summit Europe 2018 全部PPT,如有更新请关注https://www.iteblog.com/archives/2432.html

2018-10-13

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

Easy, Scalable, Fault-tolerant stream processing with Structured Streaming-TD

2018-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除