Hadoop实战
1 Hadoop简介
1.1 什么是Hadoop
1.1.1 Hadoop概述
1.1.2 Hadoop的历史
1.1.3 Hadoop的功能与作用
1.1.4 Hadoop的优势
1.1.5 Hadoop的应用现状和发展趋势
1.2 Hadoop项目及其结构
1.3 Hadoop的体系结构
1.3.1 HDFS的体系结构
1.3.2 MapReduce的体系结构
1.4 Hadoop与分布式开发
1.5 Hadoop计算模型—MapReduce
1.6 Hadoop的数据管理
1.6.1 HDFS的数据管理
1.6.2 HBase的数据管理
1.6.3 Hive的数据管理
1.7 小结
2 Hadoop的安装与配置
2.1 在Linux上安装与配置Hadoop
2.1.1 安装JDK 1.6
2.1.2 配置SSH免密码登录
2.1.3 安装并运行Hadoop
2.2 在Windows上安装与配置Hadoop
2.2.1 安装Cygwin
2.2.2 配置环境变量
2.2.3 安装和启动sshd服务
2.2.4 配置SSH免密码登录
2.3 安装和配置Hadoop集群
2.3.1 网络拓扑
2.3.2 定义集群拓扑
2.3.3 建立和安装Cluster
2.4 日志分析及几个小技巧
2.5 小结
3 Hadoop应用案例分析
3.1 Hadoop在Yahoo!的应用
3.2 Hadoop在eBay的应用
3.3 Hadoop在百度的应用
3.4 Hadoop在Facebook的应用
3.5 Hadoop平台上的海量数据排序
3.6 小结
4 MapReduce计算模型
4.1 为什么要用MapReduce
4.2 MapReduce计算模型
4.2.1 MapReduce Job
4.2.2 Hadoop中的Hello World程序
4.2.3 MapReduce的数据流和控制流
4.3 MapReduce任务的优化
4.4 Hadoop流
4.4.1 Hadoop流的工作原理
4.4.2 Hadoop流的命令
4.4.3 实战案例:添加Bash程序和Python程序到Hadoop流中
4.5 Hadoop Pipes
4.6 小结
5 开发MapReduce应用程序
5.1 系统参数的配置
5.2 配置开发环境
5.3 编写MapReduce程序
5.3.1 Map处理
5.3.2 Reduce处理
5.4 本地测试
5.5 运行MapReduce程序
5.5.1 打包