初次学习在大数据平台下做数据分析和数据挖掘,之前主要是在MATLAB上在一些数据分析,虽然很熟悉了,然而受速度和方便程度的影响,毕竟还是不太方便做实时的、集群的、超大数据量的分析,因此决定放下用了6年的MATLAB,转战python+spark。
为何选择python+spark?选择spark是毋庸置疑的,目前最先进的大数据平台,可是为什么选择python而不选择spark同样支持的scala、Java和R呢?这个纯粹是个人爱好,目前还没有找到具体的理由,也可能是最近看了几个java开发的应用程序,觉得java的程序量非常大,对这一点没有多少好感吧,而对Scala不熟悉,python和R的风格感觉跟MATLAB还是比较像的,个人觉得,python的适用范围可能比R更加广泛一些吧,因此就选择了python+spark。
本系列的博客我想写一些我个人学习使用spark的一些亲历过程,可能有些是原创的,有些会是转载修改的,如果有问题,欢迎大家给我邮件(xlydq1206@sina.com),批评指正,以期能帮助更多的想学但现在正陷入困境的同行们!
好啦,啰嗦了半天,现在开始进入正题了,第一节比较简单,旨在讲述本人安装spark的一些问题和解决方法。
刚开始的时候我是按照网上的教程一步步做,可是出了不少错,因为我不知道到底要干嘛,只是跟着一步步做,现在学会了,我总结后就是几个问题:
- 选择系统平台
- python安装
- pycharm安装
- Hadoop和spark的安装
现在来逐一分析,把这几个