前一段时间学习了传智播客大数据课程,觉得掌握的不太牢靠以后还要再重复的看看。我想简单的总结一下课程吧!!
首先大数据课程要有JAVAEE的基础和LINUX基本功。整个课程有以下几点:
- linux基础篇:包括liunx安装软件,网络设置、vim编辑器、免密登陆、shell基础。
- java高级基础:反射,高并发,RPC,JVM,netty
- zookeeper:存储和监听特性。
- Hadoop基础:hdfs。RPC,yarm,MR模型
- Hive+sqoop+flume+azkaban辅助系统
- Hbase:存储(觉得比hive好用一点)
- storm:掌握编程模型就好!!不太难(实时计算框架。不过现在被flink代替了,自己还没有跟上时代的步伐。。)
- storm+kafka+redis:实时计算的三驾马车
- scala编程基础:为spark打基础
- spark:rdd+stream+sql三点
- python:基础+一部分机器学习的算法
整合一下:只要还是在数据的清洗、存储展示上下功夫。可能是当时课程还没有完善,或者算法那一块太深奥。我总觉得高级算法还是没有做好!!当下的做的比较好的推荐算法等等没有做。以前做数学建模比赛学到的知识我还没有忘,我想整理一下关于数据挖掘的部分,再抽空补补现在比较流行的智能推荐算法。又要用回Matlab了。。。