01 Pycharm连接服务器Python环境操作Spark

m0_59811476

已于 2024-04-23 14:55:34 修改

阅读量545

点赞数 4

分类专栏： pyspark应用技术文章标签：服务器 python pycharm spark

于 2024-04-16 14:08:38 首次发布

本文链接：https://blog.csdn.net/m0_59811476/article/details/137821771

版权

pyspark应用技术专栏收录该内容

4 篇文章 1 订阅

订阅专栏

本文详细介绍了如何在PyCharm中配置远程Python环境，连接Spark，以及使用WordCount案例来统计文本单词频率。步骤包括创建项目、增加SSH远程解释器、设置环境变量，最后在HDFS上执行实际的WordCount操作。

摘要由CSDN通过智能技术生成

创建项目

首先创建一个python项目
在这里插入图片描述

如图可自行选择项目的存放位置；Python解释器默认即可。
4d79b3f4974b20b0024b7e12ba2208.png)

配置环境

增加远程python解释器

找到设置

在这里插入图片描述

增加python解释器

在这里插入图片描述 ### 选择 onssh方式

选择ip地址和对应的用户名
在这里插入图片描述
输入密码
请添加图片描述
一直下一步（next）即可

选择

配置同步项目文件夹位置
在这里插入图片描述

设置运行环境变量

在这里插入图片描述

添加SPARK_HOME 和 PYTHONPATH 环境变量
请添加图片描述

使用wordcount案例测试spark使用

统计文本各单词出现频率

在服务的目录上创建待分析文本

vi ~/data.txt
##写入如下内容
hello jeck
hello sam
good day every one
good night
are you ok jeck
day day student
day day up

使用hdfs命令将其上传至hdfs文件系统中

hdfs dfs -put /root/data.txt /user

在pycharm中编写待测试代码如下

# 导入pyspark模块
from pyspark import SparkContext, SparkConf

if __name__ == '__main__':

    # 创建SparkConf
    conf = SparkConf().setMaster("local[*]").setAppName("WordCount")

    # 创建SparkContext
    sc = SparkContext(conf=conf)

    # 读取文本文件
    file_rdd = sc.textFile("/user/data.txt")

    # 对读取的每行数据按空格拆分  从分离出所有单词
    word_rdd = file_rdd.flatMap(lambda line: line.split(" "))

    # 对每一个单词标记统计个数为1
    word_one_rdd = word_rdd.map(lambda word: (word, 1))

    # 归约统计每个单词的个数
    result_rdd = word_one_rdd.reduceByKey(lambda x, y: x + y)

    # 收集RDD
    resultColl = result_rdd.collect()

    # 遍历打印输出
    for word in resultColl:
        print(word)

    # 结束
    sc.stop()