2.点击工具->部署->上传到远程服务器
3.可以前往服务器文件夹里面看看是否上传
4.以text.py为例, 在编译器端运行该文件
import findspark
findspark.init()
from pyspark import SparkConf, SparkContext
if __name__=='__main__':
conf=SparkConf().setAppName("test").setMaster("local[*]")
sc=SparkContext(conf=conf)
rdd=sc.parallelize([1,2,3,4,5,6,7])
def add(data):
return data*100
print(rdd.map(add).collect())
print( rdd.map(lambda data:data*10).collect())
运行结果如下
报错
1. 错误1:JAVA_HOME is not set
原因:没有设置java环境变量
编辑该文件配置
添加java环境变量,地址为远程主机的java地址
2.错误2:WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
原因:无法使用hadoop库
在环境变量中加上spark就可以了
3.错误3: WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
在添加spark环境变量后依然报错,但是这个警告通常不会影响代码的运行,因为PyCharm会使用内置的Java类来处理Hadoop相关的功能。如果没有使用Hadoop相关的功能,您可以忽略这个警告。
想要解决的话,在环境遍历中加上Hadoop即可
4.错误4:py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.isEncryptionEnabled does not exist in the JVM
在代码头部加上两行代码即可
#添加此代码
import findspark
findspark.init()
添加后会提示缺少findspark模块,因为Linux环境下没有安装这个模块,可以使用编译器远程安装到Linux主机上。
5.错误5:java.net.ConnectException: 拒绝连接
原因:没有打开hadoop集群
打开主机端的hadoop集群就可以解决。
(pyspark) root@master:~# start-all.sh
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-wxll9566-1712857470167)]