Mac pycharm 导入pyspark

最新推荐文章于 2024-09-10 13:17:12 发布

大师兄你家猴跑啦

最新推荐文章于 2024-09-10 13:17:12 发布

阅读量1.8k

点赞数

分类专栏： spark linux python

spark 同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

转载于：点击打开链接

1 前提：已经安装了pycharm，下载了spark（官网下载，我下的是spark-2.1.1-bin-hadoop2.7.tgz，解压缩后为文件夹spark-2.1.1-bin-hadoop2.7，我将文件放在了/Applications/spark/下，这个文件夹里面有python文件，python文件下还有两个压缩包py4j-some-version.zip和pyspark.zip，之后会用到）

2 在网上我搜了很多网页，但是只解决了运行环境的问题，使用pyspark时from pyspark import SparkContext，代码依然划红线，运行依然显示没有该模块。

3 不管对不对，在pycharm上的project interpreter上下载py4j，因为很多博客说pyspark依赖这个模块。

4 随便打开一个project，pycharm右上角“run”三角形的左边有一个run configurition，打开它。

5 设置configurition---Environment--- Environment variables ---点击“...”，出现框框，点击+，输入两个name，一个是SPARK_HOME，另外一个是PYTHONPATH，设置它们的values，SPARK_HOME的value是安装文件夹spark-2.1.1-bin-hadoop2.7的绝对路径，PYTHONPATH的value是该绝对路径／python，例如我的SPARK_HOME的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7，那么我的PYTHONPATH的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7/python 。设置好了保存。（注意不管是路径的哪里，都不能有空格！！尤其是结尾！！今天下午就因为一个空格折磨我好久）

6 关键的一步，还要去配置其他的。很多网页上都只有到第5步。在perferences中的project structure中点击右边的“add content root”，添加py4j-some-version.zip和pyspark.zip的路径（这两个文件都在Spark中的python文件夹下）

7 完成，from pyspark import SparkContext，红线消失，运行正常。

大师兄你家猴跑啦

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大师兄你家猴跑啦 CSDN认证博客专家 CSDN认证企业博客

码龄10年

39: 原创

8万+: 周排名

55万+: 总排名

25万+: 访问

: 等级

2692: 积分

25: 粉丝

57: 获赞

62: 评论

254: 收藏

私信

关注

热门文章

分类专栏

计算机原理 2篇
clickhouse 1篇
Hadoop 2篇
数据压缩 1篇
数据管理 3篇
spark 20篇
java 14篇
linux 15篇
python 4篇
kafka 2篇
machine leaning 4篇
mysql 5篇
hive 1篇
impala 3篇
eclipse 4篇
git 2篇
mybatis
元数据管理 3篇
数据管理 4篇
ElasticSearch 5篇
redis 2篇

最新评论

JVM详解 --- 垃圾回收机制
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
Java程序员必备：jstack命令解析
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
MYSQL No space left on device
bandofmind: 我遇到过一次，是因为mysql 的tmpdir默认在系统盘，在建索引的时候疯狂占用系统盘，引起空间不足。将tmpdir改到数据盘就可以了
LZ77算法压缩和解压缩
qq_42709770: 您好，我觉得好像压缩之后是A,B,（2，2）C，（4,3）A，（6，2）A，D
海量数据处理算法总结【超详解】
汤团的防御塔: 有个疑问，第一个方法里： 2）还有一个比较重要的问题，如何根据输入元素个数n，确定位数组m的大小及hash函数个数，即hash函数选择会影响算法的效果。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下，m至少要等于n*lg(1/E) 才能表示任意n个元素的集合。但m还应该更大些，因为还要保证bit数组里至少一半为0，则m应该>=nlg(1/E)*lge ，大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。举个例子我们假设错误率为0.01，则此时m应大概是n的13倍。这样k大概是8个。原文中按公式算的，m是n的9.57倍才对？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。