通过增加计算机数量并行计算提升运算和数据处理速度,把众多的计算机通过集群方式并行同时运行
二、Hadoop
在开源云计算系统中,Hadoop广受欢迎,是Apache的开源项目,为开发者提供了一个分布式系统的基础架构,用户可在不了解分布式系统的底层细节的情况下开发分布式的应用,充分利用集群的强大功能,实现高速运算和存储。
Hadoop项目中包括——
分布式文件系统HDFS(海量存储)
分布式并行编程框架MapReduce
Hive数据仓库
HBase分布式开源数据库
Mahout机器学习类库
Pig开发应用
ZooKeeper分布式协调服务
Avro支持高效、跨语言的RPC(远程过程调用)以及永久存储数据的序列化实现
Chukwa数据收集系统
1.什么是Hadoop?
Hadoop是一个分布式计算框架,能在由大量廉价的硬件设备组成的集群上运行应用程序,并为应用程序提供一组稳定可靠的接口
目的:构建一个具有高可靠性和良好扩展性的分布式操作系统
处理的海量数据可达PB级别(1PB=100TB),且可让应用程序在上千个节点进行分布式处理。
组成——分布式存储HDFS&分布式计算MapReduce