BigData
cangyu2013
这个作者很懒,什么都没留下…
展开
-
Spark原理
参考文献:Spark原理总结Github: Apache spark projectSpark修炼之道(进阶篇)spark修炼之道(高级篇)Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster ComputingSpark简介 Spark是UC Berkeley ...原创 2018-12-24 15:48:22 · 654 阅读 · 0 评论 -
Spark SQL原理
参考文献:Spark修炼之道(进阶篇)——Spark入门到精通:第八节 Spark SQL与DataFrame(一)sparkSQL1.1入门之二:sparkSQL运行架构利用Spark SQL可以构建大数据平台上的数据仓库,它具有如下特点:能无缝地将SQL语句集成到Spark应用程序 统一的数据访问方式(DataFrames and SQL provide a common w...原创 2018-12-25 11:54:24 · 497 阅读 · 0 评论 -
Spark Streaming原理
参考文献:Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)Spark Streaming简介Spark Streaming接受实时数据流, 然后将数据按批次划分, 再将这部分数据交由Spark引擎处理,处理完成后将结果输出到外部文件。我们来看一段基于Spark Streaming的word count代码,它可以很好地帮助初步理解流...原创 2018-12-25 15:34:57 · 368 阅读 · 0 评论 -
Kafka最佳实践
本文为转载,原文链接:Kafka如何做到1秒处理1500万条消息Apache Kafka -分布式数据流平台,New Relic(数据智能平台)、Uber、Square(移动支付公司)等用来构建可扩展、高吞吐量、高可靠的实时数据流系统。例如,在 New Relic 的生产环境中,Kafka 群集每秒能处理超过 1500 万条消息,且其数据聚合率接近 1Tbps但在大型系统中 Kafka...转载 2019-01-24 11:03:28 · 604 阅读 · 0 评论