在windows环境下,vscode编写ubuntu中的pyspark代码并执行

对于经常用windows不想直接用ubuntu的同学来说,有福啦!!!

vscode先配好解释器环境,我前一篇博客配置了ssh连接Ubuntu,由于提前用ssh连接了Ubuntu,可以先本地这样操作Ubuntu了

上图,添加文件夹和文件都非常方便。

如新建test_pyspark.py代码

from pyspark import SparkContext,SparkConf

if __name__ == '__main__':
    conf = SparkConf().setMaster("local").setAppName("myapp_01")
    sc = SparkContext(conf=conf)      #Driver端

    fileRDD = sc.textFile("hdfs://master:9000/input/word.txt")
    fileRDD.foreach(print)

先上传word.txt到hdfs的/input目录中,然后在终端执行代码

第一步确保进入pyspark_env虚拟环境,conda activate pyspark_env   ,之前spark安装的博客有配置。

第二部执行:python3  test_pyspark.py,结果如下:

没问题了,可以尝试集群提交:

spark-submit --master yarn  test_pyspark.py 

大数据得来个单词数数才算入门,词频统计代码test_pyspark_wc.py如下:

# coding:utf8
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setMaster("local").setAppName("my app")
    sc = SparkContext(conf=conf)

    lines = sc.textFile("hdfs://master:9000/input/word.txt")

    wordcount = lines.flatMap(lambda x: x.split(" ")).map(lambda x: (x, 1)).reduceByKey(lambda a, b: a + b)
    
    print(wordcount.collect())

python3 test_pyspark_wc.py   没问题,可以通过集群提交

至此,完成的简单的pyspark代码编写与执行。

  • 16
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值