免责声明:本文仅代表个人观点,如有错误,请读者自己鉴别;如果本文不小心含有别人的原创内容,请联系我删除;本人心血制作,若转载请注明出处
1、官方文档,养成看官方文档的习惯
http://spark.apache.org/docs/1.4.1/sql-programming-guide.html
这里一定要好好看,里面的小例程最好都实现一下
2、51学院(很多人做spark都是从王家林这里入手的)
http://book.51cto.com/art/201408/448416.htm
3、GitHub(基本上很多关于spark的资料、源码都可以在这里下载,如Lenet)
https://github.com/patrickmeiring/LeNet
4、spark参数配置,如使用多少个核,每个核多大内存等等
http://www.tuicool.com/articles/zIvayyf
5、spark的GraphX操作(基本上是官方文档上的一个应用)
http://www.dataguru.cn/thread-478144-1-1.html
6、整理的对spark的SQL理解
http://www.tuicool.com/articles/VZRBV3
7、DL4J库的安装与应用
http://deeplearning4j.org/zh-gettingstarted.html
8、spark的机器学习库的介绍
http://www.colabug.com/thread-1144693-1-1.html
9、一些函数讲解
1)、spark的 reduceByKey 和 groupByKey的比较
http://www.iteblog.com/archives/1357
2)、spark的 sortBy 和 sortByKey的详解
http://www.iteblog.com/archives/1240
3)、spark的 Vectors讲解
http://blog.sina.com.cn/s/blog_49cd89710102v3be.html
总结:想要做好spark一定先要把架构看好,spark的并行式架构的具体组成,在其次就是那些并行架构是怎么用spark实现的,spark使用scala开发的,所以scala应尽量学好,java可以跟scala无缝嫁接,所以java也应该学好
spark的核心知识:架构、图、数据库、pipeline、流、及机器学习库和深度学习库等等