python写spark的效率问题_为什么我的Spark运行速度比纯Python慢？性能比较

最新推荐文章于 2023-06-15 23:42:34 发布

weixin_39596975

最新推荐文章于 2023-06-15 23:42:34 发布

阅读量367

点赞数

文章标签： python写spark的效率问题

与较小的数据集上的pyspark相比,Python肯定会表现得更好.处理更大的数据集时,您会看到不同之处.

默认情况下,在SQL上下文或Hive上下文中运行spark时,默认情况下将使用200个分区.您需要使用sqlContext.sql(“set spark.sql.shuffle.partitions = 10”);将其更改为10或任何值.它肯定比默认更快.

1) My dataset is about 220,000 records, 24 MB, and that’s not a big

enough dataset to show the scaling advantages of Spark.

你是对的,你不会在较低的数量上看到太大的差异. Spark也可以更慢.

2) My spark is running locally and I should run it in something like

Amazon EC instead.

对于你的音量,它可能没有多大帮助.

3) Running locally is okay, but my computing capacity just doesn’t cut

it. It’s a 8 Gig RAM 2015 Macbook.

同样,对于20MB的数据集也没关系.

4) Spark is slow because I’m running Python. If I’m using Scala it

would be much better. (Con argument: I heard lots of people are using

PySpark just fine.)

单独站立就会有所不同. Python比scala具有更多的运行时开销,但在具有分布式功能的较大集群上,它无关紧要

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39596975

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

sparkpython效率低_为什么我的Spark运行速度比纯Python慢？性能比较

weixin_29309213的博客

01-14

1026

Spark新手在这里.我尝试使用Spark对我的数据框执行一些pandas操作,并且令人惊讶的是它比纯Python慢(即在Python中使用pandas包).这是我做的：1)在Spark中：train_df.filter(train_df.gender == '-unknown-').count()返回结果大约需要30秒.但使用Python需要大约1秒钟.2)在Spark中：sqlContex...

python __reduce__魔法方法_非常全的通俗易懂 Python 魔法方法指南（下）

weixin_39560066的博客

11-28

1586

点击上方“咸鱼学Python”，选择“加为星标”第一时间关注Python技术干货！作者：Rafe Kettler翻译：hit9来源：https://pyzh.readthedocs.io/en/latest/python-magic-methods-guide.html06. 反射你可以通过定义魔法方法来控制用于反射的内建函数 isinstance 和 issubclass 的行为。下面是对应的魔...

参与评论您还未登录，请先登录后发表或查看评论

python写spark的效率问题_为什么我的 spark比纯 Python跑得慢？性能比较

weixin_39729262的博客

11-27

418

给新手点 spark。我尝试使用spark在我的 dataframe上执行一些pandas操作，但奇怪的是它比纯python慢（即在python中使用pandas包）。我是这样做的：1）train_df.filter(train_df.gender == '-unknown-').count()恢复结果大约需要30秒。但是使用python大约需要1秒钟。2） spark中：sqlContext.s...

sparkpython效率低_Effective PySpark(PySpark 常见问题)

weixin_31366459的博客

02-11

368

构建PySpark环境首先确保安装了python 2.7 ,强烈建议你使用Virtualenv方便python环境的管理。之后通过pip 安装pysparkpip install pyspark文件比较大，大约180多M,有点耐心。下载 spark 2.2.0,然后解压到特定目录，设置SPARK_HOME即可。其实如果通过spark-submit 提交程序，并不会需要额外安装pyspark, 这里...

python写spark的效率问题_“大数据架构”Spark 3.0发布，重大变化，性能提升18倍...

weixin_39546661的博客

12-01

256

我们激动地宣布，作为Databricks运行时7.0的一部分，可以在Databricks上使用Apache SparkTM 3.0.0版本。3.0.0版本包含超过3400个补丁，是开源社区做出巨大贡献的顶峰，带来了Python和SQL功能方面的重大进步，并关注于开发和生产的易用性。这些举措反映了该项目如何发展，以满足更多的用例和更广泛的受众，今年是它作为一个开源项目的10周年纪念日。以下是Spar...

sparkpython效率_《Spark数据分析：基于Python语言》 —1.2　Spark简介

weixin_39966020的博客

11-30

270

1.2　Spark简介Apache Spark是为了提升Hadoop中MapReduce的效率而创建的。Spark还提供了无可匹敌的可扩展性，是数据处理中高效的瑞士***，提供SQL访问、流式数据处理、图计算、NoSQL处理、机器学习等功能。1.2.1　Spark背景Apache Spark是开源的分布式数据处理项目，由Matei Zaharia在2009年创建于加州大学伯克利分校RAD实验室。S...

面试_PerfLab_python：性能实验室的面试任务，作者Artem Zaleskovskiy

02-07

标题中的“PerfLab_python”指的是一个专注于性能测试和优化的Python项目，可能是为了帮助开发者在面试中展示自己的技能或解决实际的性能问题。作者Artem Zaleskovskiy可能是这个项目的创建者或主要贡献者，他可能在...

python_moudle_auto_install_tools

04-04

C++扩展通常用于提升性能，因为C++可以直接访问内存，执行速度比纯Python代码快。此工具可能有性能敏感的部分，因此选择了C++实现。 3. **定时更新**：这涉及到任务调度和版本控制。工具的定时更新可能通过`cron`...

比较火的Python库：快速转换为 Latex 公式.zip

08-18

"比较火的Python库：快速转换为 Latex 公式.zip" 提到的库就是这样的一个工具，它允许开发者将Python计算公式直接转化为LaTeX格式，这对于学术论文写作、技术文档或在线教育平台来说非常实用。LaTeX是一种高质量的...

sparkpython效率_pandas、spark计算相关性系数速度对比

weixin_39912566的博客

11-30

840

python写spark_单机用python写spark处理20G的数据

weixin_39799825的博客

11-24

341

因为机器学习等算法的快速发展，python已经成为重要的开发语言。利用python做数据挖掘时，Pandas、numpy是常见的依赖库，Pandas、nump在本质上是将数据一次性读入内存后再处理。因pc资源，尤其是内存等资源的限制，当数据量变大后，再用上述方法时，可能发生内存不足，或者剩余内存很少，导致无法处理，或者处理速度很慢的情况。hadoop和spark是主流的大数据平台，主流语言是Jav...

pyspark，spark执行调优更新

yf_bit的博客

06-25

3711

一.指定spark executor 数量的公式 executor 数量 = spark.cores.max/spark.executor.cores spark.cores.max 是指你的spark程序需要的总核数 spark.executor.cores 是指每个executor需要的核数二.指定并行的task数量 spark.default.parallelism 参数说明：该参数用于设...

大数据-计算引擎-Spark（四）：原生Spark（基于Scala语言）、Pyspark（使用Python定义的Api接口来调用底层Scala代码）对比

u013250861的博客

06-03

1161

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某

spark中通过rdd、dataframe和spark sql实现相同sql运行速度对比（实测）

vic_torsun的博客

09-12

5598

决定做一个非常无聊的实验，众所周知现在使用spark进行数据分析一般采用rdd分布式编程、dataframe接口和使用spark sql执行的方式，那么在忽略数据加载速度的情况下，究竟哪种方式的运行速度最快呢？至于rdd和dataframe数据集的原理和区别，我就不在这里介绍了，可以看RDD DataFrame Dataset 三者的优缺点 , 三者之间的创建 , 以及相互转换这篇文章。数据集...

pandas与pyspark计算效率对比

me_to_007的博客

06-15

1374

单机，大量数据pandas与pyspark计算效率对比

【Python】Pandas 与 PySpark 强强联手，功能与速度齐飞！

fengdu78的博客

03-30

1312

使用Python做数据处理的数据科学家或数据从业者，对数据科学包pandas并不陌生，也不乏像云朵君一样的pandas重度使用者，项目开始写的第一行代码，大多是 import pandas as pd。pandas做数据处理可以说是yyds！而他的缺点也是非常明显，pandas 只能单机处理，它不能随数据量线性伸缩。例如，如果 pandas 试图读取的数据集大于一台机器的可用内存，则会因内存不足而...

pandas、pyspark、spark相互转换，语法对比（超详细）

weixin_44548098的博客

03-16

1307

pandas、pyspark、spark相互转换，语法对比（超详细）

Cython如何提高Python程序的运行效率？

python写spark的效率问题_为什么我的Spark运行速度比纯Python慢​​？性能比较

python写spark的效率问题_为什么我的Spark运行速度比纯Python慢？性能比较