Pycharm连接服务器Python环境操作Spark
创建项目
首先创建一个python项目
如图可自行选择项目的存放位置;Python解释器默认即可。
配置环境
增加远程python解释器
找到设置
增加python解释器
### 选择 onssh方式
选择ip地址和对应的用户名
输入密码
一直下一步(next)即可
选择
配置同步项目文件夹位置
设置运行环境变量
添加SPARK_HOME 和 PYTHONPATH 环境变量
使用wordcount案例测试spark使用
统计文本各单词出现频率
在服务的目录上创建待分析文本
vi ~/data.txt
##写入如下内容
hello jeck
hello sam
good day every one
good night
are you ok jeck
day day student
day day up
使用hdfs命令将其上传至hdfs文件系统中
hdfs dfs -put /root/data.txt /user
在pycharm中编写待测试代码如下
# 导入pyspark模块
from pyspark import SparkContext, SparkConf
if __name__ == '__main__':
# 创建SparkConf
conf = SparkConf().setMaster("local[*]").setAppName("WordCount")
# 创建SparkContext
sc = SparkContext(conf=conf)
# 读取文本文件
file_rdd = sc.textFile("/user/data.txt")
# 对读取的每行数据按空格拆分 从分离出所有单词
word_rdd = file_rdd.flatMap(lambda line: line.split(" "))
# 对每一个单词标记统计个数为1
word_one_rdd = word_rdd.map(lambda word: (word, 1))
# 归约统计每个单词的个数
result_rdd = word_one_rdd.reduceByKey(lambda x, y: x + y)
# 收集RDD
resultColl = result_rdd.collect()
# 遍历打印输出
for word in resultColl:
print(word)
# 结束
sc.stop()