大数据
文章平均质量分 69
Snail_Moved_Slowly
这个作者很懒,什么都没留下…
展开
-
Spark性能优化指南-高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性转载 2017-11-26 11:01:36 · 378 阅读 · 0 评论 -
Spark性能优化指南-基础篇
本文转载自美团点评技术团队博客,原文地址:http://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种转载 2017-11-26 10:34:46 · 339 阅读 · 0 评论 -
Spark-使用问题总结
前言通过前面两篇文章的学习,对大数据运用中遇到的问题基本可以解决,本篇文章再补充一些前面没有提到的问题和知识点,希望避免大家踩坑。map数目控制通过前面的文章对参数调优有了基本认识,这里再补充一点我在hadoop streaming中关于map数目控制的知识。通过参数控制使得每个map处理的数据量基本均衡,加快运行时间,避免出现因为数据量的不均衡导致的时间浪费。map数目默认情况下原创 2017-11-26 17:25:00 · 437 阅读 · 0 评论 -
Spark-使用总结-1
导语经过一段时间的学习,对spark的认识更深入了一些。有几个知识点一起再来学习一下。1、spark参数的理解spark.default.parallelism:该参数用于设置每个stage的默认task数量。spark.sql.shuffle.partitions:对于Spark SQL中的shuffle类语句,比如group by、join等,该参数代表了shuffle read task的并...原创 2018-04-21 11:55:21 · 405 阅读 · 0 评论 -
spark-使用总结-2
1、partition数目spark的输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一...原创 2018-05-06 17:42:15 · 482 阅读 · 0 评论