![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
阿誠的数据杂货铺
就是个打杂的
展开
-
Spark算子
1.parallelize1.解释- 并行集合的创建(RDD)使用已经存在的迭代器或者集合通过调用spark驱动程序提供的parallelize函数来创建并行集合- 并行集合被创建用来在分布式集群上并行计算的。2.例子data = [1, 2, 3, 4, 5]distData = sc.parallelize(data)一旦创建RDD,RDD,就可以在集群上并行的去被操作。我...原创 2019-05-07 20:33:21 · 536 阅读 · 0 评论 -
在 Windows 上安装Spark(PySpark库)(无需安装 Hadoop )
1.需要预装 Anaconda ,推荐从清华镜像下载符合你机器配置的最新版。2.确保你的电脑已经安装好了 Java 7+ 。对了,Java 安装路径中不能有空格!路径中不能有空格!3.访问 Apache Spark 网站,下载 Apache Spark: 1. 选择一个 Spark 版本 (Choose a Spark release) 2. 选择软件包类型 (Choos...转载 2019-05-11 10:31:02 · 1100 阅读 · 0 评论 -
Spark之数据倾斜调优
一 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。1.1数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task...转载 2019-05-31 22:49:53 · 126 阅读 · 0 评论