初次了解到大数据,会感觉到一头雾水。基于hadoop的大数据生态系统,成百上千的应用,还有各种各样的理论,不同理论发展的技术路径不同。经过一段时间的查找资料,还有借鉴某课程的教材,整理了一个大概的路线图,供大家梳理脉络。
1. linux 操作系统。因为hadoop部署在linux上,所以关于linux的一些基本命令是要掌握的。
2. java 基础。hadoop支持java,很多的框架也支持java,那学好core java 就是一件基础的技能。
3. hadoop 知识。这个学习大数据的基础了,虽然现在的spark在一些性能上超越了hadoop,但是作为大数据的基础还是要掌握的。HDFS, MapReduce的概念和实践得熟练。
4. Hive 数据仓库。和通用数据库的机制不同。
5. 协作框架。Flume 采集日志;Hue 可视化;Kafka 消息中间件。围绕hadoop的协作框架很多,各有不同的应用场景。
6. spark 内存运算框架。大数据里面的另一个方向,spark sql, spark streaming 要了解下。
梳理一遍来开始学习之旅吧。