作为一个Java程序员,到目前为基本不具备Python与Spark的经验。
接下来会按学习步骤写下所有Python与Spark学习中遇到的坑。
为什么选Python而不是Scala和Java,这里的原因是,Java的SparkAPI写法特别繁琐不好理解,Scala本身也没有经验。
但是大数据分析后可能会继续学习机器学习人工智能相关的东西,现在最火的基本就是Python,因此学习Python,而不是Scala,省着以后还要费事学Python.
先说下我的开发环境:
操作系统:WIN7-64位
开发工具:IDEA
开发语言:Python3.7
Spark版本:2.3.1