Pyspark安装

最新推荐文章于 2024-07-20 00:19:29 发布

Behersve

最新推荐文章于 2024-07-20 00:19:29 发布

阅读量694

点赞数

分类专栏： Python学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YiXiao1997/article/details/115870489

版权

Python学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

①准备工作：

spark-2.1.0-bin-hadoop2.7.tgz 链接：https://pan.baidu.com/s/17DvaJISJ3TFFR67xwGdqxw 提取码：mkfs
winutils.exe 链接：https://pan.baidu.com/s/13pLTobO5r3SQTmVowrIWiA 提取码：pl3z

hadoop-2.7.1.tar.gz 链接：https://pan.baidu.com/s/1VZteqilTSpcMOg0r0Bw2Fw 提取码：flsh
python 3.5 (自行下载，版本大于3.5的spark这个版本不支持，一定要64位哦）

② 安装 spark ，解压后，配置好环境变量即可，cmd中输入 spark-shell 无报错

安装Hadoop，解压后，配置好环境变量，将上面的winutils.exe放入Hadoop的bin目录

然后在Hadoop与bin同级的目录中创建tmp文件夹，tmp目录里创建hive文件夹，没错都是空的

然后用cmd命令行，到Hadoop的bin目录哦，输入：winutils.exe chmod 777 [这里写tmp所在的目录路径] ，这个命令是给tmp授权

③ 将spark\python\pyspark 这个文件夹放入Python 安装目录：Python\Lib\site-packages 下

④ cmd中输入 pip install py4j

⑤cmd中输入 pyspark 无报错即可

⑥ Python中直接开箱使用即可

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Pyspark安装

①准备工作：spark-2.1.0-bin-hadoop2.7.tgz 链接：https://pan.baidu.com/s/17DvaJISJ3TFFR67xwGdqxw 提取码：mkfswinutils.exe 链接：https://pan.baidu.com/s/13pLTobO5r3SQTmVowrIWiA 提取码：pl3zhadoop-2.7.1.tar.gz 链接：https://pan.baidu.com/s/1VZteqilTSpcMOg0r0Bw2Fw ...
复制链接

扫一扫

专栏目录

Behersve CSDN认证博客专家 CSDN认证企业博客

码龄7年

41: 原创

8万+: 周排名

171万+: 总排名

8万+: 访问

: 等级

1041: 积分

825: 粉丝

65: 获赞

17: 评论

201: 收藏

私信

关注

分类专栏

最新评论

Zotero 基本配置(详细）
2401_83514269: 博主，那个百度网盘链接打不开了，求分享
python 列表中按顺序重复数字
CSDN-Ada助手: 非常棒的博客！感谢你分享这个问题的解决方案。我建议你可以继续深入这个主题，写一篇关于Python中列表的高级操作技巧的博客。例如，如何使用列表推导式和匿名函数来过滤、转换和操作列表元素。这些技巧将对提高你的编程效率和代码质量非常有帮助。期待你的下一篇博客！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
Python:如何显示实时爬取速度和进度条？
Behersve: chunk_size我单独定义了，这里就是1024（见代码第八行）
Python:如何显示实时爬取速度和进度条？
A123882: [code=python] print("文件大小："+str(round(float(content_size/chunk_size/1024),4))+"[MB]") [/code] 这里有bug,不应该把片段大小放进去,获取的文件大小直接除以1024*1024 [code=python] print("文件大小："+str(round(float(content_size/1024/1024),4))+"[MB]") [/code]
C语言:struct和typedef
JAVA 小萌新: 我悟了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。