大数据的计算模型分为:离线计算和实时计算。
1. 首先学习编程语言
- Java –> Java SE 的内容,Java 基础
- Scala –> 学习Spark,注意:Scala是基于Java的,需要JVM环境
2. 需要学习Hadoop:
- 数据的存储:HDFS——Hadoop Distributed File System
- 数据的计算:MapReduce
- 生态圈(组件):HBase、Hive、Flume、Pig、HUE、Sqoop等等
3. NoSQL 数据库:Redis 内存数据库
4. 学习Apache Storm 实时计算
5. Spark
- Scala
- Spark Core 内核(处理引擎)
- Spark SQL:类似MySQL数据库,支持SQL
- Spark Streaming: 类似Apache Storm 实时计算
6. 将来:机器学习、深度计算、人工智能
注意:大数据和关系型数据库有什么关系?没有关系!!!
学习大数据的时候,重点要:
- 掌握原理和体系结构
- 动手实验
- 写程序