Hadoop Definitive Guide --- Chapter 1. Meet Hadoop

Data
我们生活在数据的元年,IDC分析报告指出在2006年现有的数量是0.18zb,到2011年达到1.8zb。
Byte --> KB --> MB --> GB --> TB --> PB --> EB --> ZB
大量的数据来源于哪里呢?
* 纽约的股票交易市场每天产生1tb新的交易数据。
* facebook存储了大概一千万的照片,接近1pb的存储空间。
* 互联网档案存储了2pb的数据,正在以每月20tb的速度增长。

如此庞大的数据一般都是在搜索引擎或者是科研机构那里,那它是如何影响小的组织或者个人呢?
从个人产生数据的角度来看,拿照相举例子,在数码时代相片的数量和容量会越来越大。包括微软的MyLifeBit项目,存储了个人的交际数据如电话,邮件,语音等等,都是很庞大的数据。数据增长的趋势也越来越快。
从机器产生数据的角度来看,例如机器日志, GPS数据,实时的交易数据将会产生海量的数据。
公有的数据集也在不断的增长,个人或组织也应该使用和分享其他组织和公有组织的数据。例如Amazon Web Services, Infochimps.org

总结一句话: More data usually beats better algorithms
好消息是我们有大数据,坏消息是在存储和分析大数据上我们遇到了问题。

Data Storage and Analysis
问题很简单:在1990年的时候一块硬盘可以存储1370MB的数据,传输速度是4.4MB/s,可以在5分钟之内把数据读完。
20年以后,一块硬盘可以存储1TB的数据,传输速度达到100MB/s,需要多达两个半小时才能把数据读完。

解决方案如下:可以将数据存储在多块硬盘上,并行的读写数据。
第一个需要解决的问题是硬件故障。因为使用许多的硬盘,所以出故障的概率就会很高,容易导致数据丢失。一个通用的解决方案是采取复制冗余,
例如RAID独立冗余磁盘阵列就是这样实现的。HDFS采用另外一种不同的方式来实现冗余。
第二个问题是许多的分析任务的数据合并带来的挑战。MapReduce框架带来的一种编程模型使得我们可以脱离硬盘读写等底层的细节,只需要专注于key/value的计算。
Hadoop中的HDFS提供数据的存储,MapReduce提供数据的分析。

Hadoop与其他方案的比较
Relation Database Management System
Hadoop适合数据一次写,多次读的程序,而传统的关系数据库适合联机更新的程序。
Hadoop适合结构和非结构化的数据如文本图片等,而传统的关系数据库适合结构化的数据如XML,表格等。
Hadoop Definitive Guide --- Chapter 1. Meet Hadoop - spring8743 - 我的博客

Grid Computing
高性能的网格计算将任务分配给计算机集群,通过连接共享的文件系统来完成任务,系统的瓶颈在于网络的带宽导致很多计算机节点资源的浪费。
Hadoop是将数据本地化,数据的存储和计算在同一个网络节点上。


A Brief Story of Hadoop
Hadoop是由Apache Lucene的创作者Doug Cutting创立,最开始作为Apache Nutch的一个子项目,后来成为Apache的顶级项目。
Doug Cutting:  Lucene(2000) --> Nutch(2002) --> Hadoop(2006)

Hadoop的这种编程处理数据模型已经成为了一种标准的大数据模型,成为了整个行业的一个标准,许多大的公司提供了基于hadoop的商业大数据产品,
包括EMC, IBM, MICROSOFT, ORACLE, 以及专门提供hadoop产品的诸如Cloudera, Hortonworks, MapR

Apache Hadoop and the Hadoop Ecosystem
Common
一系列的为分布式存储和读写设计的组件和接口。
Avro
数据异构传输的序列化和持久存储。
MapReduce
分布式的计算框架
Hadoop
分布式的存储系统
Pig
一种数据流的语言
Hive
Hadoop的数据仓库
HBase
分布式面向列的hadoop数据库
ZooKeeper
分布式的高可用性的协同服务
Sqoop
将传统的RDBMS数据导入到HDFS工具
Hadoop Definitive Guide --- Chapter 1. Meet Hadoop - spring8743 - 我的博客
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值