经过对于前期的《大数据技术原理与应用》课程的6天学习,自己梳理了整体的学习内容。接下来,经过3天的学习,自己完成了对于网页版《Spark编程基础(Scala版)—厦门大学》内容的学习,解决了之前自己在工作中使用到Scala和Spark时遇到的一些问题,自己的主要学习内容如下:
1. Scala相关基础和数据结构等;
2. Scala高级进阶:类、对象、继承、函数式编程等;
3. Spark的安装、使用,Spark Shell的使用,读取HDFS文件内容等;
4. DataFrame、RDD、SparkSQL;
5. Pipeline(之前在介绍“特征工程”的博客中也介绍过Pipeline,这里是在分布式下进行使用)。
对于Spark Streaming、Spark GraphX,自己还未曾涉及。不过,自己也会着重进行实操学习。
Spark的学习网址: