Hadoop 是什么?
1> Hadoop是一个由Apache基金会所开发的分布式系统基础架构 。
2> 主要解决,海量数据的存储和海量数据的分析计算问题。
3> 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈 。
Hadoop的发展史
Hadoop是Apache Lucene创始人 Doug Cutting 创建的。最早起源于Nutch,它是Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。
分布式和集群区别:
集群和分布式是计算机科学中常见的概念,它们既有区别又有联系。以下是区别与联系的详细介绍:
- 区别。集群指的是将多台服务器集中在一起,用来执行相同的任务或服务,以提高系统的整体性能、可用性和可靠性。集群中的服务器通常运行相同的软件和服务,并通过负载均衡器来分发请求,以实现高效的资源利用。分布式系统则是将计算任务或数据分散到多个独立的节点上,这些节点可以位于不同的物理位置,每个节点处理不同的业务或任务的一部分。分布式的特点是数据分散存储和处理,能够提高系统的容错性和处理能力。
- 联系。集群可以由分布式系统的节点组成,即分布式系统的每个节点可以在集群中作为一个独立的服务器运行。然而,并不是所有的集群都采用分布式架构,有些集群可能只有一个或两个节点。在分布式系统中,节点之间的通信通常通过网络协议(如HTTP、RPC)进行,以确保数据的一致性和系统的可靠性。