使用pycharm的pyspark的一些错误

1. key not found: _PYSPARK_DRIVER_CALLBACK_HOST报错

https://blog.csdn.net/qq_40454655/article/details/100224589

 

2. TypeError: namedtuple() missing 3 required keyword-only arguments: 'verbose', 'rename', and 'module'

https://blog.csdn.net/gdkyxy2013/article/details/80164773

 

3. WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable

在 ~/.bashrc 设置一下 export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

export PATH=$PATH:$ LD_LIBRARY_PATH

 

4. spark 报错:py4j.protocol.Py4JJavaError

原来spark默认是从hdfs上都文件的,博主的文件存放在本地路径下,因此需要改为:lines = sc.textFile("file:///home/key/README.md")

hdfs的则为:lines = sc.textFile("/README.md")

 

5. 'SparkConf' object has no attribute '_get_object_id'

这是因为我的代码是:SparkConf(conf),所以报错

初始化时最好使用conf=conf的方式,防止默认位置参数的影响。

 

6. Linuxpycharm里输入不了中文

https://blog.csdn.net/huowa9077/article/details/80982976

 

7. 如何在pycharm代码上使用pyspark

https://blog.csdn.net/weixin_40170902/article/details/82533125?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

 

8. 安装pycharm并与anaconda连接以及anaconda的一些常用命令?

https://blog.csdn.net/xiaozaizi666/article/details/84137768

https://www.jianshu.com/p/eaee1fadc1e9

破解:https://blog.csdn.net/sinat_38682860/article/details/89254900?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

9.  Exception:Python in worker has different version 3.7 than that in driver 2.7,PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set.

用windows的pycharm写代码,用虚拟机上的python环境调试。

虚拟机环境:linux、spark-2.4.4-bin-hadoop2.6、anaconda:原装python3.7,我新增了python2.7和python3.7、我在anaconda的python2.7中安装了py4j-0.10.7和pyspark-2.4.4,py4j的版本参照spark-2.4.4-bin-hadoop2.6中的版本

linux的环境变量中因为安装了anaconda而修改了环境变量,export PATH=$ANACONDA_HOME/bin:$PATH。原本没有这句话的时候,在命令行输入python之后,系统会寻找/usr/bin/python。现在有了这句话,输入python之后,系统会在anaconda目录/bin/python这里找python。

但在windows上的pycharm用虚拟机的环境调试代码时报以上错误。这里 version 3.7是系统寻找python环境时找到的python版本,这个就是anaconda目录/bin/python;而driver 2.7是pip安装pyspark所在的python版本;所以需要改变 anaconda目录/bin/python的python版本。

解决:

①先备份anaconda目录/bin/python,再删除anaconda目录/bin/python

②建立软连接,使得系统走进anaconda目录/bin/python是走进pip安装pyspark所在的python

ln -s /usr/local/src/anaconda3/envs/python2/bin/python /usr/local/src/anaconda3/bin/python (ln -s 源文件 目标文件)

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
PyCharm是一种功能强大的集成开发环境(IDE),可用于开发Python项目。而PySpark是一个用于在Python使用Apache Spark的库。要在PyCharm使用PySpark,首先需要安装PySpark库。你可以使用pip命令来安装PySpark,也可以在PyCharm的项目设置中添加PySpark库的依赖。 一旦安装好PySpark,你可以在PyCharm中创建一个新项目,并在项目中编写代码来测试PySpark的开发环境。例如,你可以创建一个.py文件,并在其中编写以下代码来测试PySpark环境: import pyspark if __name__ == '__main__': conf = pyspark.SparkConf().setMaster("local[*]").setAppName("PySparkTest") sc = pyspark.SparkContext(conf=conf) words = ["hello", "word", "hello", "python", "hello", "java", "hello", "spark"] rdd = sc.parallelize(words) counts = rdd.map(lambda w: (w, 1)).reduceByKey(lambda a, b: a + b) print(counts.collect()) 在PyCharm中运行上述代码,如果没有报错,则说明PySpark安装成功并且可以在PyCharm使用。 总结来说,要在PyCharm使用PySpark,你需要先安装PySpark库,然后在PyCharm中创建一个新项目,并在项目中编写PySpark代码。这样就可以开始使用PySpark来进行数据处理和分析了。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [【PythonPySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 ...](https://blog.csdn.net/han1202012/article/details/132000928)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Pycharm中搭建PySpark开发环境](https://blog.csdn.net/zuorichongxian_/article/details/108416411)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值