- 博客(14)
- 收藏
- 关注
原创 通过 Spark Streaming Listener 监控程序
本ppt来自于4月23-25日举行的Spark + AI Summit 2019。作者来自 SPOTX公司,该公司大量使用到了 Spark Streaming,其每天处...
2019-05-29 08:15:00 1488
转载 如何通过合理的学习规划,快速入门大数据开发
对于很多初级开发者,或者还没什么实际开发经验的人来说,大数据相关技能看起来特别吓人,因为一堆特别复杂的英文名词,以及听起来难度极高的各种“架构”。但真正去学习上手,你就会...
2019-05-28 08:29:00 363
原创 图文了解 Kafka 的副本复制机制
也可以到我个人博客阅读(点击下面阅读原文即可) https://www.iteblog.com/archives/2556.html让分布式系统的操作变得简单,在某种程度...
2019-05-27 09:28:22 1109
原创 分布式原理:一致性哈希算法简介
本文原文(点击下面 阅读原文即可进入):https://www.iteblog.com/archives/2499.html一致性哈希算法(Consistent Hash...
2019-05-24 09:28:14 216
原创 文末送书 | 从单体到Flink:一文读懂数据架构的演变
导读:近年来随着随着开源社区的发展,越来越多新的技术被开源,例如雅虎开源的Hadoop分布式计算框架,到UC伯克利分校开源的Apache Spark等,而伴随着这些技术的...
2019-05-23 07:49:07 422
转载 是时候放弃 Spark Streaming, 转向 Structured Streaming 了
Spark 团队之后对 Spark Streaming 的维护可能越来越少,Spark 2.4 版本的Release Note里面一个 Spark Streaming...
2019-05-23 07:49:07 373
转载 5月12日送书活动中奖名单公布
01企业数据湖KingGuo 郭** 186******** 北京市********02企业数据湖synda 梁** 132******** 广东省...
2019-05-17 12:37:17 159
转载 文末送书 | Spark Streaming 性能调优
01合理的批处理时间(batchDuration)关于SparkStreaming的批处理时间设置是非常重要的,Spark Streaming在不断接收数据的同时,需要...
2019-05-17 12:37:17 346
转载 Presto对ORC格式的优化
本文由鸿先生投稿,作者公众号:鸿的笔记最近Presto的官网发表了一篇文章,叙述了新版本的Presto对ORC格式读取的性能优化过程,包含了很多代码细节,非常有趣,故进行...
2019-05-16 08:40:43 886
转载 基于 Flink SQL 构建实数据仓库在 OPPO 的实战
本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Fli...
2019-05-15 08:24:59 395
转载 MapReduce Shuffle 和 Spark Shuffle 区别看这篇就够了
Shuffle简介Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将m...
2019-05-13 08:26:00 2396
转载 欢迎加入 Cassandra 技术社区
Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库,它基于 Amazon Dynamo 的分布式设计和 ...
2019-05-07 10:06:02 271
转载 自学90天年薪过百万:人工智能岗薪酬究竟能多高?
人工智能相关岗薪酬究竟能多高?2018年的冬天有点冷,网传互联网行业提高招聘要求,优化人员结构。但“应届AI博士起薪80万”却在11月上了头条,热火朝天。朋友是HR,人工...
2019-05-06 08:00:00 1083
转载 百PB级Hadoop集群存储空间治理
现在这个世道,随便什么公司什么人都张嘴闭嘴大数据,连做个几十人的问卷都敢叫大数据调查分析。真是无知者无畏。但也真有不少公司是真的有足够大的数据量的,也确实是在用心做大数据...
2019-05-05 19:15:39 573
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人