0.0 总目录 1.0.1前言:为什么会有大数据 1.1什么是Hadoop 1.2模块介绍 1.2.1什么是HDFS 1.2.2什么是MapReduce 1.2.2.1Job的提交(源码解读) 1.2.2.2Map-Task(源码解读) 1.2.2.3Reduce-Task(源码解读) 1.2.2.4eclipse开发MapReduce 1.2.2.5MapReduce实例 1.2.3什么是YARN 1.3Hadoop搭建 1.3.1搭建Hadoop前的准备 1.3.2伪分布式搭建 1.3.3完全分布式搭建 1.3.4Hadoop-HA(高性能)模式搭建-理论 1.3.4.1手动Hadoop-HA(高性能)模式搭建 1.3.4.2自动Hadoop-HA(高性能)模式搭建 1.4Hadoop生态圈 1.4.1ZooKeePer 1.4.1.1ZooKeePer的安装 1.4.1.2ZooKeePer简单用法 1.4.2HBASE(理论) 1.4.3Hive(理论) 1.4.3.1Hive部署 1.4.3.2Hive小试牛刀 1.4.3.3Hive常用需知 1.4.3.4Hive数据类型 1.4.3.5Hive的DDL操作 1.4.3.6Hive的DML操作 1.4.3.7Hive的查询操作 1.4.3.8Hive的函数操作(上) 1.4.4Flume 1.4.5Sqoop 1.4.6Kafka 1.5Spark生态圈 1.5.1 Spark概述 1.5.1.1 Spark-RDD 1.5.1.2 Spark的部署与安装 1.5.1.3 spark-submit命令参数详解与调优 1.5.1.4Spark算子详解(总览) 1.5.1.4 常用算子之map/flatmap/mapPartitions/glom算子 1.5.2 Spark SQL 1.5.3 Spark streaming 1.5.3 Spark mlLib 1.6Fink生态圈 1.7 Lucene 1.8 Ambari+HDP搭建hadoop(一) 1.8 Ambari+HDP搭建hadoop(二) 1.9CDH搭建Hadoop集群(一) 1.9CDH搭建Hadoop集群(二)