《Hadoop海量数据处理：技术详解与项目实战》一导读-CSDN博客

前言

Hadoop海量数据处理：技术详解与项目实战
为什么要写这本书
2013年被称为“大数据元年”，标志着世界正式进入了大数据时代，而就在这一年，我加入了清华大学苏州汽车研究院大数据处理中心，从事Hadoop的开发、运维和数据挖掘等方面的工作。从出现之日起，Hadoop就深刻地改变了人们处理数据的方式。作为一款开源软件，Hadoop能让所有人享受到大数据红利，让所有人在大数据时代站在了同一起跑线上。Hadoop很好地诠释了什么是“大道至简，衍化至繁”，Hadoop来源于非常朴素的思想，但是却衍生出大量的组件，让初学者难以上手。

我在学习和工作的过程中，走过很多弯路也做过很多无用功，尽管这是学习新技术的必由之路，但却浪费了大量的时间。我将自己学习和工作的心得记录下来，为了帮助更多像我当年一样的Hadoop学习者，我决定写一本书，一本自己开始Hadoop职业生涯的时候也想读到的书。

第1章绪论
1.1 Hadoop和云计算
1.2 Hadoop和大数据
1.3 数据挖掘和商业智能
第2章环境准备
第3章 Hadoop的基石：HDFS
3.1 认识HDFS
3.2 HDFS读取文件和写入文件
3.3 如何访问HDFS
第4章分而治之的智慧：MapReduce
第5章 SQL on Hadoop：Hive
第6章 SQL to Hadoop : Sqoop
第7章 Hadoop性能调优和运维
应用篇：商业智能系统项目实战
第8章在线图书销售商业智能系统
第9章系统结构设计
第10章在开发之前
第11章实现数据导入导出模块
第12章实现数据分析工具模块
第13章实现业务数据的数据清洗模块
第14章实现点击流日志的数据清洗模块
第15章实现购书转化率分析模块
第16章实现购书用户聚类模块
第17章实现调度模块
结束篇：总结和展望
第18章总结和展望