前述:这几天看完了一本有关spark的书,加上回顾了一些spark的视频,感觉以前很多不是很懂的细节,现在终于有了一点概念。在这里安利一些入门spark的资源:
- 网易云课堂,林子雨老师的spark视频,讲的很细节,很适合入门边学边做。
- 《spark最佳实践》:里面涉及到很多基础的知识点,所以入门也应该看看,并且对spark编程方面也会有所帮助。
- 《Spark大数据处理:技术、应用与性能优化》:有一点spark基础看这本书就不会太累,这本书你带你深入到spark源码。
- 《hadoop权威指南》:学spark当然这本书也要看看,不然你都不知道什么是yarn,什么是hdfs。
写点什么呢?我感觉要是你把上面的书能过一遍,比我总结的应该要更有用。
再安利一些知识点把:
- 什么是thrift协议。
- jdbc是啥,包括odbc,spark的相关jdbc,odbc用过没?
- session的概念。
- thrift server听过吗?livy呢?
- maven基础知识,什么是依赖,什么是插件,排除依赖的依赖精简包怎么做,产品发布打包assembly插件知道吗,shade呢?maven怎么构建一个多模块的项目,和spark包结构一样的。怎么用maven编译spark源码然后进行部署运行。
- 日志log4j知道吗?slf4j呢?他们啥区别?
- restAPI知道吗?
- linux命令知道多少?比如你能否写个服务启动脚本,定义一些start.sh或者stop.sh进行服务开关。参考spark的startxxx.sh
- git呢?
我感觉我得沉下心来,看玩《thinking in java》《scala编程》,然后我想在livy上做点东西,把session manager加进去。然后spark core和spark sql得好好研究下~!