一、学习大数据需要的基础
java SE,EE(SSM)
90%的大数据框架都是java写的
MySQL
SQL on Hadoop
Linux
大数据的框架安装在Linux操作系统上
二、需要学什么
第一方面:大数据离线分析
一般处理T+1数据
Hadoop 2.X:(common、HDFS、MapReduce、YARN)
环境搭建,处理数据的思想
Hive:
大数据数据仓库
通过写SQL对数据进行操作,类似于mysql数据库中的sql
HBase
基于HDFS的NOSQL数据库
面向列的存储
协作框架:
sqoop(桥梁:HDFS 《==》RDBMS)
flume:收集日志文件中信息
调度框架anzkaban,了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)
扩展前沿框架:
kylin、impala、ElasticSearch(ES)
第二方面:大数据实时分析
以spark框架为主
Scala:OOP + FP
sparkCore:类比MapReduce
sparkSQL:类比hive
sparkStreaming:实时数据处理
kafka:消息队列
前沿框架扩展:flink
阿里巴巴 blink
第三方面:大数据机器学习(扩展)
spark MLlib:机器学习库
pyspark编程:Python和spark的结合
推荐系统
python数据分析
Python机器学习