hadoop-扫盲篇

最新推荐文章于 2024-09-14 22:42:29 发布

bruce_wang_janet

最新推荐文章于 2024-09-14 22:42:29 发布

阅读量696

点赞数

分类专栏： Hadoop 文章标签： hadoop mapreduce 分布式计算 optimization 数据挖掘分布式存储

Hadoop 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

一、Hadoop是什么？

答：是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。

hadoop的核心主要包含：HDFS和MapReduce
HDFS是分布式文件系统，用于分布式存储海量数据。
MapReduce是分布式数据处理模型，本质是并行处理。

二、多少数据算海量数据？

答：个人认为，TB（1024GB）级别往上就可以算海量数据。

三、谁在使用hadoop？

N多大型互联网公司，这里列的比较全：
http://wiki.apache.org/hadoop/PoweredBy

Yahoo!

More than 100,000 CPUs in >40,000 computers running Hadoop
Our biggest cluster: 4500 nodes (2*4cpu boxes w 4*1TB disk & 16GB RAM)
- Used to support research for Ad Systems and Web Search
- Also used to do scaling tests to support development of Hadoop on larger clusters
Our Blog - Learn more about how we use Hadoop.
>60% of Hadoop Jobs within Yahoo are Pig jobs.、

IBM

Facebook

We use Hadoop to store copies of internal log and dimension data sources and use it as a source for reporting/analytics and machine learning.
Currently we have 2 major clusters:
- A 1100-machine cluster with 8800 cores and about 12 PB raw storage.
- A 300-machine cluster with 2400 cores and about 3 PB raw storage.
- Each (commodity) node has 8 cores and 12 TB of storage.
- We are heavy users of both streaming as well as the Java APIs. We have built a higher level data warehousing framework using these features called Hive (see the http://hadoop.apache.org/hive/). We have also developed a FUSE implementation over HDFS.

EBay

532 nodes cluster (8 * 532 cores, 5.3PB).
Heavy usage of Java MapReduce, Pig, Hive, HBase
Using it for Search optimization and Research.

在国内，包括中国移动、百度、网易、淘宝、腾讯、金山和华为等众多公司都在研究和使用它

移动工作之所以投入hadoop研究，是成为为了处理每个地市每天的近TB数量级的CDT/MR数据，而现存的关系数据库智能分析软件只能分析一段时间内的有限数据，且分析时间过长。因此启动BC-PDM（大云数据挖掘系统）来进行网络问题分析，趋势预测，海量数据长期存储等。

BC-PDM目前部署256个机器，通过264口的千兆网交换机互连。

四、用它来做什么？

答：海量数据处理。。。似乎有点虚呵呵，我能想到的用hadoop的地方：
1、最简单的，做个数据备份/文件归档的地方，这利用了hadoop海量数据的存储能力
2、数据仓库/数据挖掘：分析web日志，分析用户的行为（如：用户使用搜索时，在搜索结果中点击第2页的概率有多大）
3、搜索引擎：设计hadoop的初衷，就是为了快速建立索引。
4、云计算：据说，中国移动的大云，就是基于hadoop的
5、研究：hadoop的本质就是分布式计算，又是开源的。有很多思想值得借鉴。

总之，你可以把hadoop看成是：分布式计算框架（或系统、或平台），可以说是用来做云计算的，呵呵。（云计算的本质就是：海量数据存储/并行处理，即hadoop中的HDFS和MapReduce）