一、我们先要了解大数据的工作方向
01.大数据工程师
02.数据分析师
03.大数据科学家
04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)
二、大数据工程师的技能要求
必须技能10条:
01.Java高级(虚拟机、并发)
02.Linux 基本操作
03.Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )
04.HBase(JavaAPI操作+Phoenix )
05.Hive(Hql基本操作和原理理解)
06.Kafka
07.Storm
08.Scala需要
09.Python
10.Spark (Core+sparksql+Spark streaming )
高阶技能6条:
1.机器学习算法以及mahout库加MLlib
2.R语言
3.Lambda 架构
4.Kappa架构
5.Kylin
6.Aluxio
三、大数据的学习技术点
Hadoop核心
(1) 分布式存储基石:HDFS
HDFS简介 入门演示 构成及工作原理解析:数据块,NameNode, DataNode、数据写入与读取过程、数据复制、HA方案、文件类型、 HDFS常用设置 Java API代码演示
(2) 分布式计算基础:MapReduce
MapReduce简介、编程模型、Java API 介绍、编程案例介绍、MapReduce调优
(3) Hadoop集群资源管家:YARN
YARN基