这个算是hadoop权威指南的读书笔记吧
古代,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛,同样,我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。
数据存储和分析的思考
当单块磁盘储存容量出现瓶颈的时候,是否考虑可以使用更多的磁盘,而不是尝试增大单块磁盘的容量,另外一个问题是大数据的分析。而hadoop的核心功能就是提供这些数据的存储和分析,对应到其组件就是 MapReduce 和HDFS。
数据库系统的思考
关系型数据库
Apache Hadoop 和Hadoop生态圈
Common
一组分布式文件系统通用I/O的组件和接口
Avro
一种支持高效,跨语言的RPC以及永久存储数据的序列化系统
MapReduce
分布式数据处理模型和执行环境,运行于大型商用机集群
HDFS
分布式文件系统
Pig
一种数据流语言和运行环境,用以检索非常大的数据集,Pig运行在MapReduce和HDFS的集群之上,
Hive
一个分布式,按列存储的数据仓库,Hive管理HDFS中存储数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据
Hbase
一个分布式,按列存储数据库,HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)
Zookeeper
一个分布式,可用性的协调服务。Zookeeper提供分布式锁知类的基本服务用于构建分布式应用
Sqoop
在数据库和HDFS之间高效传输数据的工具