Spark+Python+Pycharm在Windows下的配置

初次学习在大数据平台下做数据分析和数据挖掘,之前主要是在MATLAB上在一些数据分析,虽然很熟悉了,然而受速度和方便程度的影响,毕竟还是不太方便做实时的、集群的、超大数据量的分析,因此决定放下用了6年的MATLAB,转战python+spark。
为何选择python+spark?选择spark是毋庸置疑的,目前最先进的大数据平台,可是为什么选择python而不选择spark同样支持的scala、Java和R呢?这个纯粹是个人爱好,目前还没有找到具体的理由,也可能是最近看了几个java开发的应用程序,觉得java的程序量非常大,对这一点没有多少好感吧,而对Scala不熟悉,python和R的风格感觉跟MATLAB还是比较像的,个人觉得,python的适用范围可能比R更加广泛一些吧,因此就选择了python+spark。

本系列的博客我想写一些我个人学习使用spark的一些亲历过程,可能有些是原创的,有些会是转载修改的,如果有问题,欢迎大家给我邮件(xlydq1206@sina.com),批评指正,以期能帮助更多的想学但现在正陷入困境的同行们!
好啦,啰嗦了半天,现在开始进入正题了,第一节比较简单,旨在讲述本人安装spark的一些问题和解决方法。
刚开始的时候我是按照网上的教程一步步做,可是出了不少错,因为我不知道到底要干嘛,只是跟着一步步做,现在学会了,我总结后就是几个问题:
  1. 选择系统平台
  2. python安装
  3. pycharm安装
  4. Hadoop和spark的安装

现在来逐一分析,把这几个

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值