hadoop-扫盲篇

一、Hadoop是什么?

答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。

hadoop的核心主要包含:HDFS和MapReduce
      HDFS是分布式文件系统,用于分布式存储海量数据。
      MapReduce是分布式数据处理模型,本质是并行处理。


二、多少数据算海量数据?

答:个人认为,TB(1024GB)级别往上就可以算海量数据。

三、谁在使用hadoop?

N多大型互联网公司,这里列的比较全:
http://wiki.apache.org/hadoop/PoweredBy 

Yahoo!

  • More than 100,000 CPUs in >40,000 computers running Hadoop

  • Our biggest cluster: 4500 nodes (2*4cpu boxes w 4*1TB disk & 16GB RAM)

    • Used to support research for Ad Systems and Web Search

    • Also used to do scaling tests to support development of Hadoop on larger clusters

  • Our Blog - Learn more about how we use Hadoop.

  • >60% of Hadoop Jobs within Yahoo are Pig jobs.、

IBM

Facebook

  • We use Hadoop to store copies of internal log and dimension data sources and use it as a source for reporting/analytics and machine learning.

  • Currently we have 2 major clusters:

    • A 1100-machine cluster with 8800 cores and about 12 PB raw storage.

    • A 300-machine cluster with 2400 cores and about 3 PB raw storage.

    • Each (commodity) node has 8 cores and 12 TB of storage.

    • We are heavy users of both streaming as well as the Java APIs. We have built a higher level data warehousing framework using these features called Hive (see the http://hadoop.apache.org/hive/). We have also developed a FUSE implementation over HDFS.

EBay

  • 532 nodes cluster (8 * 532 cores, 5.3PB).

  • Heavy usage of Java MapReduce, Pig, Hive, HBase

  • Using it for Search optimization and Research.

在国内,包括中国移动、百度、网易、淘宝、腾讯、金山和华为等众多公司都在研究和使用它 

 移动工作之所以投入hadoop研究,是成为为了处理每个地市每天的近TB数量级的CDT/MR数据,而现存的关系数据库智能分析软件只能分析一段时间内的有限数据,且分析时间过长。因此启动BC-PDM(大云数据挖掘系统)来进行网络问题分析,趋势预测,海量数据长期存储等。

   BC-PDM目前部署256个机器,通过264口的千兆网交换机互连。


四、用它来做什么?

答:海量数据处理。。。似乎有点虚呵呵,我能想到的用hadoop的地方:
1、最简单的,做个数据备份/文件归档的地方,这利用了hadoop海量数据的存储能力
2、数据仓库/数据挖掘:分析web日志,分析用户的行为(如:用户使用搜索时,在搜索结果中点击第2页的概率有多大)
3、搜索引擎:设计hadoop的初衷,就是为了快速建立索引。
4、云计算:据说,中国移动的大云,就是基于hadoop的
5、研究:hadoop的本质就是分布式计算,又是开源的。有很多思想值得借鉴。


总之,你可以把hadoop看成是:分布式计算框架(或系统、或平台),可以说是用来做云计算的,呵呵。(云计算的本质就是:海量数据存储/并行处理,即hadoop中的HDFS和MapReduce)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值