![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark系列
文章平均质量分 64
lipviolet
面对现实,忠于理想~
展开
-
大数据---mr和spark的shuffer过程详解及对比优化
大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。M...原创 2019-03-17 20:48:51 · 1280 阅读 · 0 评论 -
Spark系列---core详解
1)map操作 /** * map(func):返回一个新的分布式数据集,由每个原元素经过func函数转换后组成 * 将原始集合中的每一个元素*7 * map的操作是一个one to one的操作 */ private def mapMethod(sc: SparkConte...原创 2019-03-02 21:17:22 · 371 阅读 · 0 评论 -
Spark系列---性能优化(基础篇)
Spark性能优化指南——基础篇 - 美团技术团队美团技术团队最新文章文章存档技术沙龙关于我们© 2019 美团技术团队All rights reserved.Spark性能优化指南——基础篇2016年04月29日作者: 李雪蕤文章链接16347字33分钟阅读在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQ...原创 2019-03-03 19:35:22 · 290 阅读 · 0 评论 -
spark系列---性能调优(高级篇)
Spark性能优化指南——高级篇 - 美团技术团队美团技术团队最新文章文章存档技术沙龙关于我们© 2019 美团技术团队All rights reserved.Spark性能优化指南——高级篇2016年05月12日作者: 李雪蕤文章链接23095字47分钟阅读继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数...原创 2019-03-03 19:44:50 · 1261 阅读 · 0 评论 -
Spark系列---sql详解
object _06SparkSQLAndCoreTest { def main(args: Array[String]): Unit = { Logger.getLogger("org.apach...原创 2019-03-06 21:18:25 · 1557 阅读 · 0 评论 -
Spark系列---streaming详解
/** * SparkStreaming基于网络端口数据的流式计算 * SparkStreaming程序的入口: * StreamingContext * 监听网络bigdata01机器,上面的9999端口的数据 * 每隔2秒,统计一次数据 */object _01SparkStreamingWordCountNetWorkOps { ...原创 2019-03-07 21:43:13 · 643 阅读 · 0 评论 -
Spark系列---core、sql、streaming联系与区别
sparkcore是做离线批处理 sparksql 是做sql高级查询 sparkshell 是做交互式查询 sparkstreaming是做流式处理区别:Spark Core : Spark的基础,底层的最小数据单位是:RDD ; 主要是处理一些离线(可以通过结合Spark Streaming来处理实时的数据流)、非格式化数据。它与Had...原创 2019-03-07 21:43:39 · 5985 阅读 · 0 评论 -
大数据---spark和mr的区别
首先最核心的两点:内存和磁盘的区别;job中途失败重新计算的区别。---spark最核心的概念是RDD(弹性分布式数据集),它的所有rdd在并行运算过程程中,可以做到数据共享,也就是可以重复使用mr在计算过程中---mapr:一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中,在计算过程中,不同计算节点之间保持高度并行,这样的数据流模型使得那些需要反复使用...原创 2019-03-17 20:41:51 · 13376 阅读 · 1 评论