Spark
Johnson0722
learning like deep learning
展开
-
Spark与Pandas中DataFrame对比(详细)
Spark与Pandas中DataFrame对比(详细)PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-me转载 2017-01-14 17:59:56 · 1794 阅读 · 0 评论 -
Spark集群中,集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系
作者:王燚光链接:https://www.zhihu.com/question/33270495/answer/93424104来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。&a转载 2017-03-28 21:47:26 · 2899 阅读 · 0 评论 -
Spark性能优化:数据倾斜
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种转载 2017-03-29 19:29:31 · 939 阅读 · 0 评论 -
Spark性能调优:开发调优
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据转载 2017-03-29 22:30:39 · 412 阅读 · 0 评论 -
Spark性能调优:资源调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪转载 2017-03-29 22:34:46 · 585 阅读 · 0 评论 -
HDFS常用操作
HDFS下常用的文件操作,如文件复制,上传等。原创 2017-07-06 16:56:22 · 1281 阅读 · 0 评论