spark使用python教程_pyspark 的使用，以及 Python pyspark 与 Spark python 语法对比

最新推荐文章于 2023-03-30 18:21:52 发布

weixin_39541227

最新推荐文章于 2023-03-30 18:21:52 发布

阅读量318

点赞数

文章标签： spark使用python教程

1.pyspark使用方式

1.1. jupyter 、Python shell

from pyspark import SparkConf, SparkContext

from pyspark.mllib.recommendation import ALS

conf = SparkConf().setMaster('local[2]').set("spark.executor.memory", "3g")

sc = SparkContext.getOrCreate(conf)

lines = sc.textFile("D:/ML/python-design/ml-10M100K/ratings.dat")

# .set('spark.driver.host','txy').set('spark.local.ip','txy')

1.2. pyspark shell

PS D:\ML\python-design\ALS-spark-NCG> pyspark

>>> lines = spark.read.text("ratings.dat").rdd

1.3. jupyter with ipython * 【未验证】

%pyspark

2.Python pyspark和 Spark python区别

可以在idea里面探索它们的区别，因为可以关联源码

2.1.读取文件

Python

lines = sc.textFile("D:/ML/python-design/ml-10M100K/ratings.dat")

Spark

lines = spark.read.text("ratings.dat").rdd

2.2. 切割字符串

Python

parts = lines.map(lambda row: row.split("::"))

Spark

parts = lines.map(lambda row: row.value.split("::"))

2.3.创建dataframe / 切割数据集

前提：

ratingsRDD = parts.map(lambda p: Row(userId=int(p[0]), movieId=int(p[1]),

rating=float(p[2]), timestamp=long(p[3])))

Python

(training, test) = ratingsRDD.randomSplit([0.8, 0.2])

Spark

ratings = spark.createDataFrame(ratingsRDD)

(training, test) = ratings.randomSplit([0.8, 0.2])

2.4. 模型对象初始化和训练

Python

model = ALS.train(training, rank=50, iterations=10, lambda_=0.01)

Spark

als = ALS(maxIter=5, regParam=0.01, userCol="userId", itemCol="movieId", ratingCol="rating",

coldStartStrategy="drop")

model = als.fit(training)

转载至链接:https://my.oschina.net/datadev/blog/1926736

weixin_39541227

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark使用python教程_pyspark 的使用，以及 Python pyspark 与 Spark python 语法对比

1.pyspark使用方式1.1. jupyter 、Python shellfrom pyspark import SparkConf, SparkContextfrom pyspark.mllib.recommendation import ALSconf = SparkConf().setMaster('local[2]').set("spark.executor.memory", "3g"...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。