spark指定python版本_如何将正常的Python应用程序正确转换为PySpark版本

最新推荐文章于 2023-10-21 22:32:44 发布

weixin_39935777

最新推荐文章于 2023-10-21 22:32:44 发布

阅读量281

点赞数

文章标签： spark指定python版本

我是PySpark的初学者,最近我尝试向我的Spark集群提交一个简单的python应用程序(批量调整大小图片).我可以成功地通过pycharm运行该应用程序,并且当我将应用程序提交给spark时,图像的大小也会随之调整.

这是我原来的Python代码：

import os

from PIL import Image

size_64 = (64,64)

for f in os.listdir('.')

if f.endswith('.jpg'):

i = Image.open(f)

fn, fext = os.path.splitext(f)

i.thumbnail(size_64)

i.save('resize/{}_64'.format(fn, fext))

然后我将其转换为我认为可以正确提交python应用程序的方式：

import os

from PIL import Image

from pyspark import SparkContext, SparkConf

APP_NAME = "ImageResizer"

def main(sc):

size_64 = (64,64)

for f in os.listdir('.')

if f.endswith('.jpg'):

i = Image.open(f)

fn, fext = os.path.splitext(f)

i.thumbnail(size_64)

i.save('resize/{}_64'.format(fn, fext))

print 'done'

if __name__ == "__main__":

conf = SparkConf().setAppName(APP_NAME)

conf = conf.setMaster("spark://10.233.70.48:7077")

sc = SparkContext(conf=conf)

main(sc)

但是,有人告诉我我实际上根本没有使用spark(我也这样认为,但我只是不知道如何使用).我想知道如何将原始代码正确转换为Pyspark方式.

熟悉pyspark的人可以帮助我吗？关于如何正确,系统地学习如何编写PySpark应用程序的任何建议？

谢谢

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39935777

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python

2401_84181704的博客

05-03

1006

需求：[(‘Spark’, 2), (‘Flink’, 1), (‘hello’, 3), (‘you’, 1), (‘me’, 1), (‘she’, 1)]共识：Spark核心或灵魂是rdd，spark的所有操作都是基于rdd的操作。(img-UqzBzusB-1714708250873)](img-GqIYRatA-1714708250873)](img-ElhTJUyj-1714708250873)]排序：[ (‘hello’, 3),(‘Spark’, 2),]

python和pyspark_Python-PySpark入门介绍

weixin_39631767的博客

12-20

1477

Apache Spark是处理和处理大数据时使用最广泛的框架之一，Python是用于数据分析、机器学习等的最广泛的编程语言之一。所以，为什么不一起使用呢？这就是Spark witApache Spark是处理和处理大数据时使用最广泛的框架之一，Python是用于数据分析、机器学习等的最广泛的编程语言之一。所以，为什么不一起使用呢？这就是Spark with Python(也被称为PySpark)出...

参与评论您还未登录，请先登录后发表或查看评论

spark指定python版本_如何指定供Spark提交使用的Python版本？

weixin_39868592的博客

11-21

135

I have two versions of Python. When I launch a spark application using spark-submit, the application uses the default version of Python. But, I want to use the other one.How to specify the version of ...

python字典转数据框,将标准python键值字典列表转换为pyspark数据框

weixin_29585753的博客

12-21

214

Consider i have a list of python dictionary key value pairs , where key correspond to column name of a table, so for below list how to convert it into a pyspark dataframe with two cols arg1 arg2?[{"ar...

python spark数据分析_Spark数据分析之pyspark

weixin_39989949的博客

12-05

892

慕课笔记一、大数据简史,从hadoop到Spark1.hadoop的出现：(1)问题：1990年，电商爆发以及机器产生了大量数据，单一的系统无法承担(2)办法：为了解决(1)的问题许多公司，尤其是大公司领导了普通硬件集群的水平扩展(3)执行：hadoop应运而生2.spark的出现：(1)hadoop面临问题：- 硬件瓶颈：多年来，内存技术突飞猛进，而硬盘技术没有太大的变化。hadoop主要运用的...

SparkBase

weixin_45882263的博客

11-14

624

SparkBase

sentos下将spark依托的Python2升级为python3

qq_43592674的博客

10-08

548

spark-with-python-course-master.zip_Python+Spark_Spark!_python s

09-20

2. **PySpark环境搭建**：配置Hadoop和Spark环境，安装PySpark，设置HADOOP_CONF_DIR和SPARK_HOME等环境变量，确保能正常运行PySpark程序。 3. **PySpark编程**：学习使用Python编写Spark作业，包括数据读取（如...

pyspark2pmml:用于将Apache Spark ML管道转换为PMML的Python库

05-03

用于将Apache Spark ML管道转换为PMML的Python库。特征该软件包为库提供了Python包装器类和函数。有关受支持的Apache Spark ML Estimator和Transformer类型的完整列表，请参考JPMML-SparkML文档。先决条件 ...

Python大数据之PySpark

最新发布

Java/Python大数据成长之路

10-21

1219

在Driver端，Python通过Py4j来调用Java方法，将用户使用Python写的程序映射到JVM中，比如，用户在PySpark中实例化一个Python的SparkContext对象，最终会在JVM中实例化Scala的SparkContext对象。为了不影响现有Spark的运行架构，Spark在外围包装了一层Python的API，借助Py4j实现Python和Java的交互，即通过Py4j将PySpark代码“解析”到JVM中去运行。根据Spark官网，Spark支持Python语言编程。

03-更改pyspark的python版本

我心自在天的博客

07-29

1235

把pyspark的python解释器更改为python3 找到文件 spark-env.sh.template： docker exec -it spark-master bash cd spark/conf 注：我的spark文件都放在docker中，所以命令对docker进行的操作创建文件命令：touch x.txt 删除文件命令：rm x.txt 对spark-env.sh.template操作复制并重命名文件 cp spark-env.sh.template spark-env.sh

对比Python，PySpark 大数据处理其实更香

Python数据挖掘

11-20

2433

对于数据分析师、数据科学家和任何使用数据的人来说，能够熟练而有效地处理大数据是一项非常有优势的技能。如果你已经熟悉运用 Python 和 pandas 做常规数据处理，并且想学习处理大数据，那么熟悉 PySpark，并将用其做数据处理，将会是一个不错的开始。PySpark是一种适用于 Apache Spark 的 Python API，一种流行的大数据开源数据处理引擎。本文的前提是，假设读者在 Python 中熟练使用 pandas 操作数据。

spark学习笔记

Blanchettee的博客

02-08

132

报错：scp: pwd/:Is a directory解决

Spark类库----PySpark（本地开发环境配置&&远程SSH解释器配置）

m0_48639280的博客

01-04

2115

Python语言开发Spark程序步骤？主要是获取SparkContext对象,基于SparkContext对象作为执行环境入口如何提交Spark应用？将程序代码上传到服务器上, 通过spark-submit客户端工具进行提交。

pyspark 数据类型转换_PySpark之DataFrame的创建与转换

weixin_35664081的博客

03-01

2968

简介DataFrame结构代表的是数据的一个不可变分布式集合，其数据都被组织到有名字的列中，就像关系型数据库中的表一样。DataFrame 的目的就是要让对大型数据集的处理变得更简单，它让开发者可以为分布式的数据集指定一个模式，进行更高层次的抽象。本文将着重介绍PySpark中DataFrame的各种创建方式，以及与RDD、Pandas之间的转换。DataFrame的创建1. 从RDD中创建为了从...

pyspark设置python的版本