2019年05月_Hadoop技术博文

原创通过 Spark Streaming Listener 监控程序

本ppt来自于4月23-25日举行的Spark + AI Summit 2019。作者来自 SPOTX公司，该公司大量使用到了 Spark Streaming，其每天处...

2019-05-29 08:15:00 1488

转载如何通过合理的学习规划，快速入门大数据开发

对于很多初级开发者，或者还没什么实际开发经验的人来说，大数据相关技能看起来特别吓人，因为一堆特别复杂的英文名词，以及听起来难度极高的各种“架构”。但真正去学习上手，你就会...

2019-05-28 08:29:00 363

原创图文了解 Kafka 的副本复制机制

也可以到我个人博客阅读（点击下面阅读原文即可） https://www.iteblog.com/archives/2556.html让分布式系统的操作变得简单，在某种程度...

2019-05-27 09:28:22 1109

原创分布式原理：一致性哈希算法简介

本文原文（点击下面阅读原文即可进入）：https://www.iteblog.com/archives/2499.html一致性哈希算法（Consistent Hash...

2019-05-24 09:28:14 216

原创文末送书 | 从单体到Flink：一文读懂数据架构的演变

导读：近年来随着随着开源社区的发展，越来越多新的技术被开源，例如雅虎开源的Hadoop分布式计算框架，到UC伯克利分校开源的Apache Spark等，而伴随着这些技术的...

2019-05-23 07:49:07 422

转载是时候放弃 Spark Streaming, 转向 Structured Streaming 了

Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的Release Note里面一个 Spark Streaming...

2019-05-23 07:49:07 373

转载 5月12日送书活动中奖名单公布

01企业数据湖KingGuo 郭** 186******** 北京市********02企业数据湖synda 梁** 132******** 广东省...

2019-05-17 12:37:17 159

转载文末送书 | Spark Streaming 性能调优

01合理的批处理时间（batchDuration）关于SparkStreaming的批处理时间设置是非常重要的，Spark Streaming在不断接收数据的同时，需要...

2019-05-17 12:37:17 346

转载 Presto对ORC格式的优化

本文由鸿先生投稿，作者公众号：鸿的笔记最近Presto的官网发表了一篇文章，叙述了新版本的Presto对ORC格式读取的性能优化过程，包含了很多代码细节，非常有趣，故进行...

2019-05-16 08:40:43 886

转载基于 Flink SQL 构建实数据仓库在 OPPO 的实战

本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议，分享嘉宾张俊，目前担任 OPPO 大数据平台研发负责人，也是 Apache Fli...

2019-05-15 08:24:59 395

转载 MapReduce Shuffle 和 Spark Shuffle 区别看这篇就够了

Shuffle简介Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将m...

2019-05-13 08:26:00 2396

转载欢迎加入 Cassandra 技术社区

Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库，它基于 Amazon Dynamo 的分布式设计和 ...

2019-05-07 10:06:02 271

转载自学90天年薪过百万：人工智能岗薪酬究竟能多高？

人工智能相关岗薪酬究竟能多高？2018年的冬天有点冷，网传互联网行业提高招聘要求，优化人员结构。但“应届AI博士起薪80万”却在11月上了头条，热火朝天。朋友是HR，人工...

2019-05-06 08:00:00 1083

转载百PB级Hadoop集群存储空间治理

现在这个世道，随便什么公司什么人都张嘴闭嘴大数据，连做个几十人的问卷都敢叫大数据调查分析。真是无知者无畏。但也真有不少公司是真的有足够大的数据量的，也确实是在用心做大数据...

2019-05-05 19:15:39 573

Hadoop技术博文