Spark+Python+Pycharm在Windows下的配置

最新推荐文章于 2024-04-27 18:17:13 发布

pends

最新推荐文章于 2024-04-27 18:17:13 发布

阅读量1.7w

点赞数 5

分类专栏：大数据学习 spark python学习文章标签： spark windows python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ydq1206/article/details/51922148

版权

初次学习在大数据平台下做数据分析和数据挖掘，之前主要是在MATLAB上在一些数据分析，虽然很熟悉了，然而受速度和方便程度的影响，毕竟还是不太方便做实时的、集群的、超大数据量的分析，因此决定放下用了6年的MATLAB，转战python+spark。
为何选择python+spark？选择spark是毋庸置疑的，目前最先进的大数据平台，可是为什么选择python而不选择spark同样支持的scala、Java和R呢？这个纯粹是个人爱好，目前还没有找到具体的理由，也可能是最近看了几个java开发的应用程序，觉得java的程序量非常大，对这一点没有多少好感吧，而对Scala不熟悉，python和R的风格感觉跟MATLAB还是比较像的，个人觉得，python的适用范围可能比R更加广泛一些吧，因此就选择了python+spark。

本系列的博客我想写一些我个人学习使用spark的一些亲历过程，可能有些是原创的，有些会是转载修改的，如果有问题，欢迎大家给我邮件(xlydq1206@sina.com)，批评指正，以期能帮助更多的想学但现在正陷入困境的同行们！
好啦，啰嗦了半天，现在开始进入正题了，第一节比较简单，旨在讲述本人安装spark的一些问题和解决方法。
刚开始的时候我是按照网上的教程一步步做，可是出了不少错，因为我不知道到底要干嘛，只是跟着一步步做，现在学会了，我总结后就是几个问题：

选择系统平台
python安装
pycharm安装
Hadoop和spark的安装

现在来逐一分析，把这几个

最低0.47元/天解锁文章

关注

5
点赞
踩
18

收藏

觉得还不错? 一键收藏
13
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pends CSDN认证博客专家 CSDN认证企业博客

码龄9年

14: 原创

41万+: 周排名

141万+: 总排名

4万+: 访问

: 等级

543: 积分

15: 粉丝

7: 获赞

15: 评论

31: 收藏

私信

关注

热门文章

分类专栏

大数据学习 17篇
spark 3篇
DL 3篇
写博客的小技巧 1篇
python学习 2篇
numpy学习
hive 5篇
shell 1篇

最新评论

常见推荐系统—综述
_努力瘦到94斤: 博主参考的是哪篇论文
Spark+Python+Pycharm在Windows下的配置
贝尔狂虐伊莲娜: [code=python] from pyspark import SparkContext print(1) sc = SparkContext('local') doc = sc.parallelize([['a','b','c'],['b','d','d']]) words = doc.flatMap(lambda d:d).distinct().collect() word_dict = {w:i for w,i in zip(words,range(len(words)))} word_dict_b = sc.broadcast(word_dict) print(2) def wordCountPerDoc(d): dict={} wd = word_dict_b.value for w in d: if dict.__contains__(wd[w]): dict[wd[w]] +=1 else: dict[wd[w]] = 1 return dict print(doc.map(wordCountPerDoc).collect()) print("successful!") [/code] 这是对应的python3的代码，字典没有has_key方法了
Spark+Python+Pycharm在Windows下的配置
大小宝: 不管用，报错啊
Spark+Python+Pycharm在Windows下的配置
大小宝: 博主，求助[code=javascript] D:\Anaconda\envs\py27\python.exe E:/PersonData/PythonStudy/Pyspark/le1/demo.py Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). 19/01/14 11:30:21 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Traceback (most recent call last): File "D:\Anaconda\lib\runpy.py", line 183, in _run_module_as_main mod_name, mod_spec, code = _get_module_details(mod_name, _Error) File "D:\Anaconda\lib\runpy.py", line 109, in _get_module_details __import__(pkg_name) File "<frozen>", line 983, in _find_and_load File "<frozen>", line 967, in _find_and_load_unlocked File "<frozen>", line 668, in _load_unlocked File "<frozen>", line 638, in _load_backward
Spark+Python+Pycharm在Windows下的配置
大小宝: 博主，我按你的操作了，代码可以写，包也能导入，也能自动补全，但是不能运行，报错。[code=plain] D:\Anaconda\envs\py27\python.exe E:/PersonData/PythonStudy/Pyspark/le1/demo.py Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). 19/01/14 11:30:21 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Traceback (most recent call last): File "D:\Anaconda\lib\runpy.py", line 183, in _run_module_as_main mod_name, mod_spec, code = _get_module_details(mod_name, _Error) File "D:\Anaconda\lib\runpy.py", line 109, in _get_module_details __import__(pkg_name) File "<frozen>", line 983, in _find_and_load File "<frozen>", line 967, in _find_and_load_unlocked File "<frozen>", line 668, in _load_unlocked File "<frozen>

最新文章

目录

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。