Hadoop--初识Hadoop（一）

最新推荐文章于 2022-05-11 22:05:29 发布

rick_zyl

最新推荐文章于 2022-05-11 22:05:29 发布

阅读量264

点赞数

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/rick_zyl/article/details/100071691

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、什么是Hadoop

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

设计原则：移动计算，而不是移动数据, 即计算向数据移动。

二、hadoop特点

扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。
成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。
可靠性（Reliable）：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署（redeploy）计算任务。

三、有哪些module组成？

Hadoop Common: The common utilities that support the other Hadoop modules.
Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
Hadoop YARN: A framework for job scheduling and cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
Hadoop Ozone: An object store for Hadoop.
Hadoop Submarine: A machine learning engine for Hadoop.

其中HDFS，YARN，MapReduce被称为hadoop的三大组件，每个组件在逻辑上都是独立的，都可不依赖与另外其他两个单独运行。

四、Hadoop 能用来做什么？

设想有如下场景：
如果需要在1PB 的数据中找出相同的关键词，如果采用常规的读取查找操作，显然不可能完成，即使能够实现，也要耗时数天甚至更久，有了hadoop以后就可以利用分布式计算原理，将这一过程耗时缩减至几小时甚至更短，Hadoop 要做的是：

首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value。
然后进行正则匹配, 匹配成功则把结果通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作。

五、 Hadoop的使用场景

日志处理
用户细分特征建模
个性化广告推荐
智能仪器推荐

rick_zyl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop--初识Hadoop（一）

一、什么是HadoopThe Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.设计原则：移动计算，而不是移动数据, 即计算向数据移动。二、hadoop特点扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（...
复制链接

扫一扫